はい、オッパッピー、ちんとんしゃんてんとん、ちんとんしゃんてんとん。
えっ、小島よしおってクイズの人じゃないんですか?
小島よしおはクイズの人からさらにアップデートされて、今は子供の教育系の人ですから。
本当に遅いよ。もう、海パンでオッパッピーを叫ぶ一発屋の人だと思ってるところから、
クイズでアップデートしたと思ってるかもしれませんが、今は子供に大人気YouTuberですから。
知らないわ、それは。
そうな。
政田大学卒業。受験戦争に巻き込まれて、謎に学歴だけつけてしまったみたいな、なんかそんなのをね、言ってた。なんかで見た気がする。
もう、全然小島よしおのアップデートはできてないよ。めっちゃすごいんだよ。子供人気。
いいのよ、別に小島よしおの話は今日は。
でも、今回はラグ。みんな大好き。データサイエンティスト、AI好き、LLM好き、大好きなラグですね。
はいはい。
ラグの中でも、NVIDIAのリサーチャーから出た論文で、OPラグってやつだった。オーダープリザーブラグ。
はい。OPね。
そう、OP、オーシャンパシフィック。だからオッパピーね。
そう。
なんか、なんか簡単に言うと、めちゃめちゃ長い文章を読むときに、オーダープリザーブしましょう。つまり、順番を保持しながらラグを進めましょうっていう論文が出てて、こういう仕事してえなみたいな。これアイデア勝ちすぎてかっけえわっていう、そういう研究。
かっこよかった。スマート。
あらゆる超優秀なやつが会社にいる中で、このなんか謎解きっぽいかつ効果的なもの出したら超いいよね。
シンプルだけど一番いいってかっこいいっすよね。
かっこいいマジで。
その論文がどんなものなのかっていうところをちょっとお話ししていく回にしていこうと思ってます。
でも今回はコワーカーさんのXのツイートから派生したっていうところで、セヤさんマジでありがとうございます。ぜひ最後まで楽しんで聞いてください。どうぞ。
隣のデータ分析屋さん。
この番組は隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁをかなえるポッドキャストチャンネルです。
データアナリストのりょっちです。
データサイエンティストのたっちゃんです。
時代はラグですね。
RAGか。
SAGAよ。
SAGAな。
こないだこれでちょっと会社でジェネギアを感じてさ。
今の新卒の世代の子たちはもうSAGA、SAGA知らないんだよ。
花輪が泣くぞ。
花輪、あの世代の人にとっては花輪は柔道頑張ってる息子のパパだから。
にっぴれ効果じゃないですか。
だからもう柔道の人だと思ってる。花輪のこと。
あとナイツの兄弟と柔道のお父さん。
一世を風靡したのにSAGAで。
知らんよそんなのはもう。
そしたらきっと残念とかも知らないんでしょうね。
マジでやばい。
親がなんかわけわかんない古いドラマとか見てるのすげー寒いなーと思って見てたのが、もう来てます。そこまで。
つらーつい最近ネットフリで極戦見始めたのに初期の。
アマプラでしょ?
アマプラか。
初期のやつ全部見た。
まっ通常のやつね。
あれに憧れてたから。高校生になって一人暮らしできると思ってたから俺。
一回は憧れるわ。
そんな中でよ。
時代はラグですよAIの。
こないだ4つ前ぐらいで話したグラフラグのエピソードがめちゃめちゃ伸びてたんで、
ラグをどうやって性能高くラグを運んでいくかみたいな。
どうやって作っていくかみたいな。
ところの、グラフ構造にすると普通のラグよりいいよっていう話をしたじゃん。
検索とかもよくなるよって話だったよね。
それとは別のアプローチがNVIDIAのリサーチャーから出てたから、論文として出てたのね。
ちょっとそれを紹介していこうかなっていう。
ちゃんとね、ポッドキャスト深めにいくって言ったからさ。
論文の話とか盛り込んでね。
今日本当はね、サウナデータ毎年こう。
楽しみにしてる人いると思ったからサウナデータ読んできたのに。
サウナデータボツになりました。
収録するまでもない。
そんな浅い話はしないっていうね。
結構な95度くらい熱々のサウナできてたんだけどな。
95はちょっとぬるめじゃない?
もっと高めか100度超えなきゃ。
100度超えてほしい。
14度キンキンのね。
100度超えのキンキン水風呂で。
ダメか。温度足りんかったわ。
まあでも逆にもう熱々の鉄板ハンバーグジョークを今日はお届けしようと思うんだけど。
はいはい。
ラグの性能を上げるOPラグってやつが出たんだよね。
OP?
OPラグです。
オーシャンパシフィック。
本当に?OP?
もう進まなくなっちゃうじゃん。
オーシャンパシフィックって言ったらもう小島芳生出てきちゃうじゃん。
論文のタイトルが
どうやって学習するんだろうっていうのはあんまり分かってないんだよね。
LLMのモデルがあることが大前提の話ではあるんだけど
ラグってそもそも言葉として
Resolvable Argumented Generationの略でラグなんだけど
日本語訳させられると検索拡張生成っていう言葉をよく使われるんだね。
その文字は見たことあるね。
LLMっていうそもそもの大前提の言語に対するモデルがある中で
あいつってそもそも汎用的なことを聞いたら汎用的な回答をしてくれるわけじゃん。
スーパー工事園みたいなイメージ。
イメージとしてはそれにオリジナルの情報をバチンって
その中で持ってないような情報をバチンとぶち込んで
その中でその言語能力を持った上で
その中で探索して何か回答を返してくれるっていう
そういうもの自体はそういう感じだよね。
だからつまり検索をする対象っていうのをまず絞らせるっていうところもそうだし
質問したものに対してその文章の中の文脈を拾っていって
回答してくれるみたいなことだよね。
弁護士と喋るみたいな感じに近くて
普通に弁護士のやつって普通に会話できるじゃん。
で、会話できるんだけど
そいつに聞いた時に六方全書っていう本を
そいつらは特別に学習して
そこの引き出しがめちゃめちゃ多いっていう人たちだから
その人たちはその中から情報を得るのに
適したモデルおじさんなわけじゃん。
モデルおばさんでもいいけどね。
っていう状態になってるものを機械上で作るみたいな感じ。
それをどういう文章をどういうふうに得れるように読み込ませるかっていうのが
文章内の言葉をベクトリカさせるのか
一旦グラフ構造、単語ごとの関係性に落とし込むのかっていうところに
ラグのテクニックが入ってくる。
ただの人間に対して六方全書をお前勉強しろよって言うんだけど
勉強の方法をいろんなパターンで組み合わせてみた結果
今回は最初言ってたOPラグみたいな方法で勉強させたらうまくいったよみたいな話。
性能上がるよねみたいな。
六方全書を覚える覚え方もみんな違うじゃん。
受験生によって単語の覚え方が違うのと一緒で
その単語をどの本使うかっていうのもそうだし
類似の単語がめちゃめちゃまとまってる読み方の方が
その人は読みやすいのかもしれないし
レベルごとに後ろに行けばむずいように作られてる方が覚えやすいのかもしれないし
名詞は名詞で固まっててくれた方が読みやすいのかもしれないしみたいな
そういう教科書の読み方をAIくんに教えてあげるみたいな。
それが文脈ちゃんと読もうね、全体の流れちゃんと汲み取ろうねっていうのが今回の話で
単語ごとの意味をちゃんと構造化しようねっていうのがグラフラグの話で
一般のラグはその単語ごとのベクトル表現っていうのを持っておいて
何か質問した時に似たようなベクトルにある質問を
そこのコンテキストから返してくれるみたいな
っていう感じで学習の仕方を変えてあげる。
なるほどね、全体感がわかりましたよ。
で、そんな背景があって学習させていくと
あら不思議精度が上がったみたいな。
人間もそうじゃん、ストーリーを持って覚えると
一個一個の歴史とかも何年に何があった、何年に何があった
徳川家康みたいな、いろんなベクトルで頭の中で表現されてるんだけど
時代の流れがわかった方が
誰がこの自作やったってなったら
あの人ってこういうのもやってたよね、次の年に
っていう流れの方が機会も読みやすかったっていう話。
わかるわ。
授業を教えるの上手い先生ってストーリー作りが上手いっすもん。
あーそうそうそうそう。
聞いて、一個お話聞いて
そのストーリーで頭に入るからなんか不倫落ちで納得感があるとか
そうなんだよね。
結局物事って歴史とかもシークエンシャルな情報だから
ちゃんとシークエンシャルなものをシークエンシャルなものとして捉えましょう。
うんうん。
やってることはめっちゃシンプルなのに
あ、伸びるんだそれっていうのが面白いポイントなんだ。
面白いね、そういうのいいっすね。
いいよね。
賢いっす。
データ分析屋さんがちゃんとアイディアを出したんだろうなっていう背景が見えてくる。
謎解きっぽいよね。
うん。
OPラグっていうのはラグはそのまんまで
OPがオーダープリザーブってなんだよ。
オーダー順番をプリザーブするから
オーダーを保存する。
順番を保存した状態であるラグ。
だからOPラグ。
なんだ、全然オーシャパシフィックじゃないじゃん。
なにそれ。
OPね。
オッパッピーだねそれは。
この論文は結構いい、面白いよマジで。
俺もこういう仕事してえわ。
それはさ、その論文に出会ったら何きっかけだったの?
なんかXで誰かが呟いてたんだよな。
あ、それとあれだ。
このチャンネルの口コミ書いてくれた人よ。
あ、そうなんだ。
で、しかもグラフラグのに反応してくれた人。
ちょっと待ってね。
今探し出すわ。
SEAさん、SEAさん。
SEAさんありがとうございます。
もうコワーカーの一人です。
ガウディっていう会社でLLMアップエンジニアをやられてるらしいんだけど。
ガウディの人ね、俺会ったことあるんだよね。
WEB3系のイベントでガウディの会社のビジョンみたいな、ファンとともに時代を進めるみたいなのでWEB3系のスタートアップなんだけど。
今の時代やっぱコミュニティとかそういったところがめっちゃ大事だしWEB3のサービスとかも裏にちゃんとサービスごとのコミュニティがあってとかってめっちゃ大事なところをちゃんとサービスとして提供するというか。
ファン国家を作るみたいなところをビジョンとして進めてたりする会社なんでね。
面白いね。
そこでLLMとかのLLMアップエンジニアをやられてるっていう方なんで、相当多分スペシャリストなわけよ。
っていうので、グラフラグに反応してくれて、おもろそうな人いるなと思ってフォローしてて、その人が発信した内容を見て、おもろ!と思って論文読みに行ったって感じ。
なるほどね、ほんとだ。いいね、しとこ。
最新の論文追うっていうのも結構難易度、コツがあるじゃないですか。
でもね、だいぶ解消されたと思うよ。
GPT-40とかは1回ちゃんと検索挟むから、昨日とか1週間とかの中で、例えばメディアとかを指定してとかでもいいし、今回論文読めたらアーカイブだから、
アーカイブの中で出たやつで、面白そうなやつ5個見つけろって言ったら返してくれるから、これ別にパワープレキシティでもできるんだよね。
そっかそっか。LLM使って楽になったってことですね。
そうそうそう。
それが今は一番いいのかな。
しかもそれで予約もしてくれますもんね、アブストラクトとかも全部。分かりやすくまとめてくれますよね。
その時のコツとしては、論文とかってDOIって呼ばれるIDとかがあるんだよね、論文、ペーパーごとのというか、その論文ごとにDOIみたいのがあって、
そのDOIもちゃんと教えてくださいとか、接続先のリンクを教えてください、あとは出版元を教えてください。
で、出版元プラスその出版元から出てるやつが、
茶読論文なのかどうかっていうのも判断してくださいっていうのを絞ると、結構クオリティの高い返事が返ってくる。
そっか。いい論文、悪い論文がもうめちゃめちゃあるから、その中でフィルタリングしてくってことですね。
で、その情報が全て揃っているものだけ提案してくださいっていう指示を出す。
ああ、大事だよね、それね。
そう。で、例えば、それの1個でも書けるやつって、少なくともLLMが検索できる範囲でないってことは、怪しさが若干増すから。
だから、そういうのは除外してもらって全然大丈夫。
そうだよね、なんか最新の論文ってそのリファレンスが引用が少ないから、当たり前だけど最近出たばっかりだから、
その論文の品質っていうところを測る指標がいまいちないっていう課題感あったけど、今の話聞いたら、
そうね。アルゴリズムを絶対に染めないように行動してるからね。
Xのアルゴリズムに乗らないようにしてるんですよね。
そう、ちょっとエッチな漫画とか出てきた時に、それの続きを読むか読まないかの葛藤を自分に勝つみたいな。
なんかX最近、質の悪いショート動画みたいなのめちゃめちゃ回ってきません?
それは質の悪いショート動画にトラップされてる結果だから。
そういうこと?
それはもうダメ。自分の行動を是正した方がいい。俺のには出てこない。
画面に表示されてる時間とか絶対あれですよね。
撮られてると思うよ。
撮られてますよね。困ったもんだよな。
怖いんだから。YouTubeとかUGCコンテンツみたいなファンが作った切り抜きコンテンツがたくさんあるYouTuberの動画を、
ショート動画を1回再生した時の感染力がえぐいから。
だからcom.のショート動画が回ってきた時に、いかにその再生時間を短く縦にスライドするかが、
自分のアルゴリズムを変更させない対策としてめちゃめちゃ大事。
気持ち最適な状態にしておきたいですよね。
SNS関連全部そうだけど、アルゴリズムとの戦いだから。
すごいからマジで。ファンの多いYouTuberの1個ショート動画見たら知らん投稿者の死ぬほど切り抜きいろんなテイストネスがブワーって出てくるようになっちゃうから。
分かるわ。
逆にだから強いんだけどね。
そこらへんの話もしたいよな。どんなアルゴリズムなのかみたいな。ちゃんと公開されてるわけではないけど。
まさにそれを話すよ。次回は。
あ、そうっすか。全然計らずとして宣伝みたいになっちゃったんだけど。
次のエピソード公開のタイミングからだと、大体1ヶ月後とかがアメリカの大統領選挙なわけですよ。
そうね。盛り上がってますもんね。
前回トランプが大統領になったタイミングで一番注目されたのって、SNS戦略というか。
SNSの中で相手側に不利な情報が異常に拡散されたっていうような背景も実はあったりする。
だからそれってなんでそんなこと起きちゃうのっていう、フェイクニュースとかの科学の話。本とかでいろいろ出てるから。
で、それって俺が普段やってる計算社会科学とかネットワークサイエンスとかとめっちゃ密接に関わってるから。
その話を整理しながら、特に前回の大統領選を整理しながら、今回の大統領選でこういうことが起きるとこうなりそうだよねみたいな話をしようかなって。
もうね、SNSありきの大統領選ですからね、この時代は。
でも前回の前回か、大統領選、トランプが当選した時のよりも、Xのアルゴリズムが変わって、正直同じような現象が起きたら、どっちかが大差で負けるっていう状態になりやすいなと思ってるのね、俺は。
そうなの?
あくまで予想だし、前回と同じだったらっていう話ね。
はいはいはい。
やってるんだけど、じゃあ何でそう思うかみたいな話を次回しようかなと思う。
面白そうだな。
っていうので、フェイクニュースの科学とかプロパガンダみたいな、そういう文脈でちょっと面白い本も紹介しながら話していこうかなと思います。
楽しみにしてます。
はい。
隣のデータ分析屋さん、今回も面白いと思ったらフォローレビューよろしくお願いします。
番組の感想や質問は、ハッシュタグ、隣の分析屋。
隣のがひらがなで、分析屋は漢字でお願いします。
また、概要欄に貼ってあるお手紙フォームからコメント寄せください。
ではまた。
バイバーイ。