RAGって何?って聞かれたら、こういうことなんだよっていうのはカネリン今日答えられるようになるんで。
本当。まずなんかRAGを知りたくてしょうがないんだけど今。
そう、だから今日RAGがわかります。で今日話を聞いたらたぶん今後RAGっていう言葉が目につくと思うから。
あ、つくんだ。
目につくと思う。すごいいろんなとこに書かれてるよ。
逆によくそれに触れずにここまで来たねって感じ?
いやでもね結局、なんだろう、生成AI、RAGって言ったら生成AIの中の話だからみたいな感じでRAGだけが表にポンって出てくることが結構よくあったのね。
だからRAGって言葉を知らなかったら、それがAIの文脈の話って気づかないかもしれない。
じゃあ気づいちゃった方がちょっと落ち着かなくなっちゃうかもしれないね。
いや、あのね大丈夫落ち着けます。RAGを今後知らないと逆に落ち着けなく、逆じゃない。性に落ち着けなくなるから。
正しくね。
逆ではないね。
知っといた方がいいということだね。
知っといた方がいい。
いろんな文脈が、その話も今日の中でちょくちょくするんだけど、絶対理解しておいた方がいいんで。
今日ね、基本的なところから。
理解したいです。
教えていきます。
ただそんな難しい話じゃない。すごい簡単。RAG自体は深いんだけど、概念はね、すごいシンプルなんで、今まで話してきた内容よりも、あんまり脳のリソース使わずに聞けると思います。
じゃあちょっと気を抜いて。
今日は気を抜いて。
喋ります。
気を抜いてるところに質問バーンっていくから気をつけてくださいね。気は抜かせないんでね。
そういうテクニックか。
テクニック。油断してると来るから気をつけて。
もう略語が多くてパンクしてるよ。
でしょ。早速じゃあ略語から行くわ。
早速RAGを説明してほしいよね。
そう。RAGを説明しなきゃいけないよね。RAGって書いてる。RAGなんだけど。
これはRetrieval Augmented Generationの略でございます。
一言もわからん。
Retrievalっていうのが検索ね。
検索。
検索。調べますよっていう検索ね。
検索機能。
で、Augmentedっていうのは拡張。
拡張ね。
で、Generationは生成でしょ。
Generation。そうか。
日本語で言うと検索拡張生成。これがRAGです。
なんかしっくり来る?
もう日本語で聞いてもわけわからんよね。
全然来ないでしょ。
漢字で書いてもね、漢字6文字で検索拡張生成って言われても。
何?GPTとかで検索エンジン検索するやつ?
違うんだよね。
違うのか。
文脈としては似てるんだけど、一言で言うと、生成AIに外部の知識を与えて、それを参照して答えさせるっていう仕組みのことをRAGって言います。
なんかGメール読み込むとか、ドライブ読み込むとかそういうの?
そうそう、それに近い。
近い。
今まで生成AIを使ってきたったらわかると思うんだけどさ、そのLLMの弱点っていうのがあって、
弱点。
それが学習した時点の情報までしか知らないっていうことなのね。
古いよね。
でしょ?なんかよくさ、2024年の何月までしか学習しませんとかって、よく出てくるじゃない。
出てくるね。
最近出てきてないけど昔よく出てきたな。
でしょ?でも最近も結局一緒なのね。
カットオフって言って、この時点までのデータしか学習してませんよっていう時点。
最終更新時点っていうのが必ずあるのよ、生成AIって。
毎回追加追加でずっと更新してるわけじゃないから。
今大体半年前ぐらいかな?
公開はされてはいないんだけど。
でもあれ聞いたら答えてくるのは正しいのかな?あなたはいつまでの情報持ってんのよって。
多分ね正しいのは、どうだろうな。多分正しくは答えるようにはなってると思う。
だけど結局リアルタイムではデータを更新できないのね、生成AIって。
で、毎回毎回そうやってさ、新しい情報くるたびに学習させてたらすごく膨大な計算時間と計算資源がかかるわけよ。
でもやっぱ最新情報とか、あと企業で活用するんだったら自分たちの独自情報?会社のデータとかも答えてほしいわけね。
ブナイの情報?
そうそうそう、会社の中の情報とか、専門技術の情報とかも踏まえて回答してほしいと、LLMに。
なるほどなるほど。
だけど自分たちでそのLLMの学習っていうのをさせるのは結構難しいのよ。さっき言ったように計算リソースがすごく必要になるから。
そうだね、難しそうだね。
難しいのよ。そこでラグっていうのを使うのね。
それはあれかね、検索するためのデータって感じ?
そう、これはね、ラグの技術を使うと外部の知識をAIに受け渡すっていうことができるんだよね。
受け渡す。
これね重要なのは学習じゃないってこと。学習じゃなくて渡してあげるっていう感じなのよ。これがねラグの特徴的なところ。
今イメージしてるのはね、検索エンジンで検索してるのと一緒なのかなみたいな。
ほとんどそれと一緒イメージとしては。
でこれ実際じゃあラグがどういうことをしてるか。検索拡張生成って一体どういうことなのかというとですね。
ユーザーが質問するじゃない。こういうことを教えてねっていうと。
そうするとその質問に対して使えそうな情報っていうのをラグが引っ張ってきてLLMに渡してあげるのね。
それを踏まえて回答させるっていうのがラグのすごく大まかな動きなのよ。
で例えばさカネリンの情報ってLLM知らないじゃない。
知ってるかもしんないけど大丈夫かな。
すごい細かい情報。
体重とか。
カネリンが何が好きでとか体重とかプロフィールみたいなものって知らないじゃん。
初恋の人は誰かとかね。
例えばカネリンのプロフィールすごい詳細なプロフィールのテキストがあるとするじゃん。
これを使って生成AIに回答させたいよっていう時にラグを使うのね。
でラグにカネリンの情報を登録しておくと。
そうするとじゃあ僕がそのLLMに対してカネリンの好きなものって何って言うかっていうと。
LLMは自分で考えずにLLMというかチャット上に聞いた時に最初にLLMが考えるんじゃなくてカネリンの好きなものっていうその文章を検索しに行くのよ。
でカネリンが好きなものってこれっていうそのプロフィールの中から文章を抜粋してLLMにフォローしていく。
それさ検索するときはAI関係ないの?
AI関係ない。
何を検索するかとかね結構大事な。
いいとこ着くね。
いいとこ着いた?
そこがラグの技術。
大事だよね。ラグの技術なんだ。AIじゃなくてそこはラグちゃんが使うってことだよね。
そうAIじゃない。ラグってね結構この後ちょっと詳しい仕組みは説明するんだけど。
ラグってさっき今言ったように結局その質問に対して該当しそうな文章を検索して持ってきてLLMにその質問のプロンプトで一緒にぶち込んであげるっていうものだよね。
結局その学習させるんじゃなくてそのプロンプトの中に情報を入れちゃう。
プロンプトに入れてる感じなんだ。一個手前があるんだねじゃあね。
ベクトルごめん、今普通に噛んだ俺が。
そんなこともあるよ。
ベクトル、ベクトロって言っちゃったけどベクトルね。
ベクトル矢印。
ベクトル、はいはいはい。
キーワード検索っていうのはさっき言ったように文字の一致を見て、
同じような文字列を引っ張ってくるっていうのが検索なんだけど、
もう一つが。
なんか前も出た?ベクトル検索。
出ました。さすがやね。
次元を落とすやつだよ。
あ、ちょっと違う。
しまった。余計なこと喋らなかった。
次元はね、次元の概念はね。
あってるあってる。
その時ベクトルとかいう話、どっかで出た気がしたな。
でもね、同じような概念で、エンベディングっていう方式で。
エンベディング。
そう、言葉をベクトル、意味に変換して。
うんうん。
でもそう、次元を落とすっていうか、その意味空間に埋め込んであげる。
意味空間。
そうそう。犬とか猫とかって全然違う単語だけど、動物っていうカテゴリーだから、
大体この位置だよねっていう。
そういうのをベクトルとして埋め込むのね。この位置ぐらいだよねっていう。
矢印がはまってんの?
そうそう、矢印の、もう矢印がこう、この方向、次元数がいっぱいあってさ、
そこにいっぱい数字が並んでるのね。
だから我々の想像してる矢印とはちょっと違うんだけど、
ここだよっていう感じでこう、矢印で指し示してるイメージだよね。
犬の方だよみたいな。
そう、犬の方だよ、猫の方、動物のカテゴリーだよねと。
ふわふわな動物のカテゴリーだよねみたいな。
哺乳類だよねみたいな。
まあそういうところに意味の中に入ってると。
だからキーワードを入れた時に、その意味の近いところまで引っ張ってこれるよっていう。
まあそういう検索、意味の近さで検索するっていうのをやるのね。
なるほどね。
分かったような分からんような矢印が埋まってます、僕の頭の中に。
いやでもそのイメージで全然いい。
どうしてもその意味空間とかって、
もう我々の頭の中では想像できないから。
ああ、そうか。
人間ってもう3次元超えたらさ、イメージできないもんで。
3次元じゃないんだ。
そう、次元数はもう何千、何百次元何千次元とかそういう話だから。
じゃあもう可視化できない。
もう我々、到底イメージできません。
なるほどね。
そういう意味空間に埋め込むよと。
で、そっからまた持ってくるよ、意味を持ってくるよっていうのをやるのね、ベクトル検索って。
で、結局そのベクトル検索とキーワード検索を掛け合わせたハイブリッド検索っていう、
文字列も一度も見るし、意味の一度も見て、ここら辺該当箇所だよねってゴソッと持ってくると。
で、それをLLMに渡してあげるよっていうのが、ラグの中で起こっている検索なのよ。
ハイブリッドなんだ。
ハイブリッド。
その検索って何?そんなラグで初めて実装されたの?
Google検索とかは使ってないの?
使ってる使ってる。
使ってるんだ。
でもそのベクトル検索は使ってないんかな。
使ってない。
ないと思う。
使えばいいのにね。
結構学習コストかかるね。
学習コスト、埋め込みに結構時間かかる。
これはどこのベクトルのあれだっての、データがないと検索できないからってこと。
そうそう、結局与えられ、今回もその結局さ、今検索の話したんだけど、
これはアルゴリズムで検索で持ってくるよっていう話。
あくまでもね、なんだけど、そもそもじゃあその登録する文章を全部ベクトルに変化しなきゃいけないんだよね。
すごい大量のカネリンのプロフィールがあってさ、生まれてから今までのカネリンの遍歴みたいなのがあったとするじゃない。
これを全部エンベディングって言って、さっき言ったようにベクトル空間に埋め込んであげなきゃいけない。
その接続するデータを全部ベクトルにするの?
ベクトルにしなきゃいけない。
なんかすごいめんどくさそうだね。
そう、それがねすごくめんどくさい。
しかも、
手作業でやるのそれ。
もっと、
カネリンの趣味何ですかって聞いたときに、ここら辺にカネリンの趣味ありそうだぞっていうのを持ってこなきゃいけないんだけど、
カネリンのプロフィールが10万文字くらいあるとするじゃん。
そしたら10万文字丸々ボンって入れられるわけじゃなくて、
チャンク分けって言って、
例えば1000文字くらいの単位で、
これ全部ベクトル空間に埋め込んであげなきゃいけないんだよ。
これ全部ベクトル空間に埋め込んであげなきゃいけないんだよ。
結局そのカネリンの趣味って入力したときに、
この1個の丸々の1000文字の中にきっとそれが入ってるぞっていうその単位、ユニット単位ごとに持ってくるのよ、情報を。
なんか、段落みたいなイメージなんかしら。
そうそうそうそうそう。
はぁー。
それ、それは何、勝手に自分で分けるのそれ?
きっとね。
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
でも、
データベースとか 色んなデータベースもそう 画像とか
画像もね画像はちょっと特殊 ラグに入れられるけど結構特殊な技術使わないと入れられなくて
まぁちょっと簡単なために文章で 文章ねテキストね 話してもらうけど
そうやってねやっぱ段落分けみたいな感じになってて その文章の中でもどこで文脈が切れるかって
なかなか判断するの難しい 一応自動でチャンク分けっていうのはしてくれる
仕組みもあるんだけど それが本当にその精度正しく出るチャンク分けなのかはわかんない
なんかテキストめっちゃAI得意 AIじゃないのか AI得意だからすげー的確に分けてくれそうな気もするけどな
そう的確には分けてくれる その文脈を考慮してそのなんか文章の途中で切るとか絶対ない
ちゃんと言い終わった後一塊で分けてはくれるんだけど それが自分とか我々がしたい
ユーザー側がしたい検索と一致してるかどうかはまた別の話なのよ
そもそもやっぱ繋がりを拾ってこれたりするのねそれで
っていうのもあって結局そのチャンクの区切り方とかもノウハウになってくる だからラグ一回組んでみて実際使ってみたけどあんま精度でないねと
だったらチャンク分け変えたりとかオーバーラップ変えたりとかちょっと泥臭い作業があるのよ
それ手動なの? それは人間がやらなきゃいけない きっついねそれ
そう精度が出ないなぁじゃあチャンク分け変えるかっつって結局でも しんど
AIってそうだよあのめっちゃ泥臭いのよ そうなの? うんあのねスマートではないよ
そうなんだ それいずれは自動化されるのそんな作業
されないの? 自動化はできるようなそういういろいろ便利なツールはある
きついよねでもそれ 結局ねそのノウハウなのよ
あの生成AIの文脈じゃないんだけどさ普通にさ画像認識とかその犬猫を分類するとか
そういうのもハイパーパラメーターって言って ハイパーパラメーター? そう人間が決めるパラメーターがいっぱいあるの
これは0.3にしようとか0.4にしようみたいな テンパレ打ち合うみたいな あそうそうそう
なんかねそう学習率とかなんとかそのね いろいろなね
分け方があるのよいろんなパラメーターがあってそういうものの組み合わせ これはちっちゃい時これが大きくてこれがちょっとちっちゃいみたいな
そういう組み合わせをもうグリッドリサーチって言ってさもうアホほどやんのね グリッドリサーチ
もうこれを位置変えた時にこれ位置変えてこれ位置変えてみたいなさもうとにかくいっぱいランダム試して
一番いい組み合わせを回数で見つけるみたいなとにかくいっぱいやって見つけるみたいな それを何手動でそれをやってんのいっぱい
そう 一番いいとこ見つけようつってそのなんか計算式でさスマートにこれが最適だって出るわけじゃなくてもうとにかくやってみて
あ 精度出た 精度出ない あ この組み合わせ 出た 出ない あ これ出た 出ないっていうのをひたすら繰り返すっていうのがAIの実装なんでね
きつい 全然 っていうもうパラメーターがアホほどあって華やかじゃない
でその計算にさ何十分もかかるからさ ああ計算終わった ああダメだった ああ計算終わった ちょっと良くなったみたいなやつをもうひたすらやっていく
AIエンジニアさんってそういうことやってる人なの そう すごく大変じゃん AIエンジニアっていうのはそういうことをやってる人です
なんかそんな泥臭いことやってるとは思わなかった いやもう本当にそのパラメーター 頭が下がるねそれ
パラメーター決めるのもめんどくさいしその学習データをさ綺麗にするっていうのもめんどくさい
このラグの話にもつながるんだけど結局さ じゃあラグの情報として
入れるよとこの文章入れるよっていう文章も本当にそれ必要な部分しかないのかとは無駄な部分入ってんじゃないのかっていうのも人間が見なきゃいけない
だからさ例えばなんかのマニュアル丸々入れますよとか説明書丸々入れますよという時もこの文章いらないよねとか
この中期ってあんまりこの検索に必要ないよねみたいなとか省いていかないとゴミが入っちゃうとやっぱそれだけノイズになるのよ
それがゴミかどうかって人間が判断しなきゃいけないからこれ入れよっか入れないかっていうのを逐次人が判断して作っていかなきゃいけないそのデータベースを
結構めんどくさいでしょ聞くだけでも 今の話聞いて思ったけどさ結構いつも雑にデータぶち込んでるのよ
結構長文のさデータバーンぶち込んでこれこれしてみたいないうことあるけどさ 必要ない情報とかも入れちゃってんのねその検索に
それ抜いた方がいいってことだよねそういうのじゃあ 厳密に言えば抜いた方がいい無駄な推論とかそのハルシネーションとかさ
間違ったことを言ってくる確率が上がるのね AIの世界ってガーベッジインガーベッジアウトってAIだけじゃないんだけどそういう言葉があって
ガーベッジイン ゴミ入れたらゴミ出てくるよと だからどんなに賢くてもゴミのデータ入れたらゴミしか出てこんと
要らん情報を言わん方がいいと そう要らん情報無駄な情報とかノイズになる情報は極力
排除してきれいにしてあげたそういう整理されたデータを入力してあげることで 精度が上がってくるのね回答精度
そうですか 俺さいつも検索する時にさ自分の情報に合わせてなんか回答してほしかったりするじゃん
だからなんか今自分こういう事業やっててこういうポッドキャスト番組やってて このポッドキャストスタジオはこういうのを目標にしててみたいなの全部文章残してあって
そのままさこの機材構成とか持ってる機材のリストとか全部書いてあって うちのスタジオにある植物の名前と植物の背の高さとみたいなの全部書いてあるの
もう全ての情報書いてんの 毎回それコピーしてペンって貼ってんのよ だから全然関係ない情報が8割ぐらい入ってたりするんだけど
それちゃんと主者選択してぶち込んであげないとダメってこと
そうね結局そのコンテキストウィンドウって言ってさプロンプトが1回で入力できる その文字の数って決まってるんだけど
最近はそのさ文字の入力できる数がめちゃくちゃ増えてるから 実質無制限みたいな感じだもんね
そう 多分ね今JATGPTの5とかってもうなんか最近さ公開してないのよあんまり どのぐらいのトークン入りますよみたいな
一説によるともう本1冊とかまるまる入っちゃうぐらい 1回のプロンプトでボンって入れるのよね
10万文字とか入るんだ うん平気で10万文字とか入っちゃうんじゃないかって言われていて
ただ当然その10万文字の中にほとんど使わない 9万文字使いませんよみたいな感じだったらそれノイズになるから
回答精度は落ちると思うその分 あと無駄になんか多分推論するだろうし
必要な部分をクリティカルに入れてあげるっていうのは結構今でも重要
そうすか そうそう
ちょっと反省しましたよその1個1個手動でそんな裏で実装してると聞いて
そうなんだよねそのラグはね まあ結構自動でチャンク分けバーってしてくれる
まあそういうフレームワークもあってそれだけでも十分結構精度は出たりもする 特にさノーションとか
のデータをそのままラグのデータとして入れるってことが結構できるのよ
あのディファイとかディフィか正しい ディフィでさ1回ラグを組んだことがあって
そのノーションに入っているデータをそのままチャンク分け自動でしてそのディフィの方でラグとしてこうガッと入れるみたいな
その情報をもとに回答してくれるよみたいなのが簡単に組めたんだけど
まあそれはそれで結構ねその荒いチャンク分けでもそこそこうまくいった
まあなんかその軽くラグやってみたいよっていうぐらいだったら全然できるんだけど
多分なんか企業のさ何らかのチャットボットの中で使おうと思ったら結構ちゃんとやっていかないとうまく作れん
ちゃんとやるってのはささっきのそのいろんなパラメーターの数字を動かすってこと
そうだねラグで言ったらそのちゃんとデータのチャンク分けとかまあそういうところをこのうまくコントロールしてあげたりとか
で結果を見て良さそうなとこに合わせるってこと
そうそうそう検索の方法をちょっと変えてあげたりとか
あと最近だとねそのいろいろその最近流行っているのがグラフラグっていうやつで
グラフラグ
グラフラグ
あのさっき言ったようにそのベクトル検索よりもより関連性が近いものを検索できるようなグラフラグっていうのがあるのね
もうその言葉同士とか概念同士をグラフっていうかその繋がりだよねこのなんか地図みたいな感じで繋げちゃう線で
はいはい
関連をこれとこれは関連してるよねとこれとこれはもっと関連してるよねみたいなだから
かなりにこの例え分かるか分かんないけどマジカルバナナ分かる?
マジカルバナナうんなんか言葉で連想ゲームみたいなやつだっけ
そうそうそうあんな感じバナナと言ったら黄色
あーあったね黄色と言ったらバナナみたいな
あー戻ってきたもう終わりはい無限ループ入りました広がりませんでした
広めイメージが卵みたいなそういう事か
なんかねそういう関連でちょっとマジカルバナナの例えが正しいか分かんないけど
言葉同士概念同士の関連をその自分で設計して繋げてあげる
これ手動でやるんだ
それ手動でやるもちろん
そうするとさそのドメイン知識だからそのこれとこれって繋がってるよねみたいなのって結構専門知識だとさあまり分かんなかったりするのね
っていうのをその分かりやすく知識同士をグラフ構造で繋いであげて
その能動で関連を辿っていって検索するっていうそれグラフラグっていうのがあって
それはもう単なる類似度とかそのベクトル検索の類似度とか言葉検索の一致度じゃなくて関連性を使っても検索ができるのよ
それ三つ目の検索指標ってことそれ
そうそうそう最近流行ってる
でラグの発展系としてグラフラグっていうそういう技術が今あって
ラグは全部グラフラグではないんだ
グラフラグではない基本的にはベクトルさっき言ったようにベクトル化して埋め込んであげるエンベディングっていうのとあとキーワード検索を組み合わせたハイブリッド検索をするか
そうやってグラフ最近はそういう関連性もちょっと見ましょうって言ってグラフラグを作る
たださっき言ったようにグラフ作るのめっちゃ大変だから
じゃあ一個一個やるんだもんね手伝いを
最初はねまず自動でやってくれるよ
自動でやってくれるんだけど結局修正とかしなきゃいけないから
これ今までのラグにプラスアルファして関連付けるってこと?
いやもう完全にグラフデータベースとして作っちゃうってこと
別のものってこと?
別のもの
大変だねじゃあこれプラスアルファやれればもっと精度上がるよってこと?
そうそうグラフラグを作れば
作れば
うんもっと精度が上がる可能性もある
だからどういうデータを入れるかによってじゃあこれグラフラグでやりましょうかとか
一回普通のラグ組んでみましょうかっていうのは結構変わるところ
だからそういうねまずデータ収集ラグの難しい所ってさまずどのデータ入れるか
これゴミだよねっていうの取捨選択するのも難しいし
前処理だよね無駄なとこ省いたりとかチャンクをどうやって分けるかとかも難しいと
結構意味を探すカンペを作ってねLLMに渡すのにも結構技術が要るよと
なるほどねこれさ毎回こんなことやっとるんじゃん最初に作っちゃえばもうだいたい後放置でいいのこれ
そうここがね結構ラグの良いところで一回作っちゃってそれなりに精度出るなと思ったら
あとは追加していけるのラグにデータを追加していってちょっとそこを追加するたびに
その今までの形崩れてないよねちゃんと検索同じのできるよねって評価がいるんだけど
一回作っちゃってそれなりにできてるよってことがあれば結構あとはメンテナンスして運用していくってことができる
なるほどね最初が一番大変だ そう最初作ってうまくいくかどうかが結構大変
ただやっぱそのすごくラグって重要でさっきも言ったようにLLMに新しい知識を与えるのってめっちゃむずいのよ
よくねこうAIちょっと話変わるんだけどさ AIに対する解像度この人高いな低いなっていうのを
見分ける便利な言葉があって これすごいこの言葉を覚えたらどやれるね
この言葉をどういうふうに使ってるかを判断すれば結構その判断できるんだけど それがねもうすでに何回も言ってる言葉よ
学習です 学習? 学習 ほいほいほいシンプルな言葉だね
学習っていう言葉をどういう文脈で使ってるかをしっかり聞くとその人のAIへの解像度がめっちゃわかるの
うわー何でもかんでもAIに学習させてって言ってそう俺 そうそれ学習みんなねその
いやこの文章をLLMに学習させてとかさなんか俺の好みを学習させてるからとかって言う人いるんだけど
皆さんに見えないけどすごい顔してます あのもうね指摘はしないんだけど学習じゃないんだねそれって
いっちゃってるよ指摘してほしい指摘して
いやあのなんだろ縦膜の隅つつくなよこいつキモいなって思われるから言わないけど
どっちもいいやろみたいな 嫌なやつって思われるね
そうでもその学習っていう言葉はAIにとってすごく重要で なるほどね
基本的にはパラメーターの更新これが学習なのよ 何何
パラメーターの更新 パラメーターの更新
だから脳みそをいじる どういうこと
そのさ結局そのニューラルネットワークとかさまあAIって言うとなんかその脳のシナプスを模したなんか網網の構造があるじゃない
落ち着きAIのさ 落ち着きAIのロゴ ロゴにもあるけど
あれがまあいわゆるさAIのその模式的な形なのねどんなものでもだいたいああいうネットワークの構造になってるんだけど
あのつぶつぶ1個にパラメーターっていうのが設定されてるのよ
AIの学習ってそのパラメーターを更新してものを覚えさせるのよねなんか学習データ入れるじゃん
でこれを学びましょうって言ってまあだいたいその推論とかして誤差当たり外れがあって間違えちゃったから学習しますって言って
そのパラメーターを更新していくのあのつぶつぶの中のね そうするとあ俺はこれ間違えてたんだって言って
AIがその間違いを学習して賢くなるっていう脳みそがこう更新されるのね
あのつぶつぶのつぶつぶの中身をちょっといじるってこと そうつぶつぶの1個1個につながりの部分その1個1個にこうパラメーターっていうのを振ってあって
その数字をちょっとずつ変えていくのよね学習するって それを何回も何回も繰り返すことによって
そのどんどん賢くなっていくそのパラメーターの数がその何億とか何兆とかあるの それをもうすごい pc でガンガン更新していくっていうのを
あの基本的にはやってるAIっていうのは それが学習 それが学習
それって何LLMの学習 いやもうAIの学習
AIの学習 LLMであろうが何であろうが
そのディープラーニングと呼ばれるものはそういうふうに基本的には学習をしてるんだけど
じゃあさっき言ったように自分の好みを学ばせてるよとか覚えさせてるよっていうのは学習なのかって言われたら
それはパラメーターの更新は伴ってないから学習じゃないのよ
ああそう だから結局プロンプトの中にどっかに打ち込んでるだけ
ああそっかそっかそのさっき言ってたプロンプト入力画面の手前だ そう手前に打ち込まれてるだけだね
はいはいはいはいはいはい LLM的には脳みそは何にもあんたのことは知らなくて
勘弁だ勘弁 回答前に勘弁を渡されて
この人こういうお便り届いてますみたいな感じ ああ勘弁を充実させてるだけだね
GPTのあなたの情報みたいな乱とかね そうそう
メモリーとか そう
なるほど そうまさにそうメモリーのところにデータとして入っていってるだけで
それをAIが理解してくれてるわけじゃなくて毎回それを読みに行ってるだけなんで
毎回勘弁を読みに来てんだ 勘弁読みに来てる
学習じゃないですそれは勘弁です そう勘弁ですだから理解してくれてないです
毎回始めましてですいつも始めましてだけど回答する前に勘弁を読んでるから
カンニングだ カンニングしてます
勉強してないよあなた そう
カンニングしてます でしょでテストを受けるときにさ
そうやって勘弁見てたらそれは学習じゃなくない 学習じゃないじゃん毎回勘弁
勘弁でしょ勘弁を元に回答してるだけでしょ
そしてすぐに忘れるって すぐに忘れるだから実は理解してくれてない
誰もあなたのことを理解してない 悲しいな何その悲しい言葉
誰もっていうかAIか 誰もあなたのことを理解してない
よくさあるじゃんなんかさAIがさこうセラピーみたいな感じでさ対話してみたいな
実はただ勘弁見ながら喋ってただけですってことだよね そう
寂しいね なんか昨日ねなんか昨日も来てくれましたねみたいな感じかと思いきや
別にそうではなくてそういうふうに書いてあるから昨日もこういう会話したっていう記憶があるから
そっからね今までやり取りしてブロンプともテキストとして入ってるからそこを考慮して回答してるだけ
過去のやり取りのブロンプとも勘弁になってるってことだよね 勘弁になってるだけ
大量の勘弁を積み重ねだ そうそういうことなんですだから学習じゃないんですこれは
なるほどね学習という言葉を安易に使っちゃダメだ そうだからね
事務長みたいなエンジニアにこいつぺって思われてんだ
いやいやいやみんなそうで結構学習っていうことを大事に使う人もいるし
なるほど 諦めて一般的にわかりやすいように学習っていうふうに言ってる人もいるけど
なんて言えばいいんだろうそれ みんな学習って言うよ学習って言うんだけど
最後のところにちょこちょこっと厳密に言うとちょっと学習じゃないんですけどみたいな感じで言ってお茶を飲みます
それ学習って最初から言わずになんかいい言葉ないの 参照だね
参照いいね 厳密に言ったら参照
自分の好み参照してもらってるからさって そう
参照 でもわかんないでしょなんかすげーわかりにくいでしょ
なにそれって でもすごく的確な言い方だよね
すごい的確な言い方それが正しい言い方なんだけど
だけどやっぱね学習って言うとわかりやすいでしょAIに学習させて俺のデータを学習させてるんだって
いやでもそれ落ち着けないそれもう落ち着けないよそんな話聞いたら でしょ
いや学習じゃないよって俺多分支部長みたいなエンジニアじゃないから俺言っちゃうわ
いや言っていい 参照ですよって
そこをちゃんと使い分けてる人学習って言わずに参照って言ったりとか
そのちゃんと学習の部分は学習って言ったりするとあこの人わかってる人だみたいな
わかってる人だって思われたい
そうだからその学習って言葉を使うときに本当に学習か学習とはなんだっていうその意識をねあの持ってほしい
それすごい良い情報じゃないそれ
本当にそれを考えるだけで結構AIの解像度めっちゃ上がるのよ
これは学習かそうじゃないかってこう仕分けれるな頭で
仕分けれる学習なのかどうかじゃあどういうふうにアルゴリズムで回答してるのかとか
どういうふうに回答してるのかって見た時にこれ学習じゃないんだとか
これ学習なんだこれパラメータ更新してるんだこうやって学んでるんだみたいなやつが
見えてくるというか調べると分かったりするからそういう一個ねやっぱ視点を持った方がいいかな
でラグも結構すごいねラグに学習させてるとかって
なんかこれも謎の言葉なのねこれって
ラグに学習させる
これも謎すぎてよくわかんないんだけど
ラグはあれだよねニューラルネットワークじゃないから
ニューラルネットワークじゃなくてあくまでも原作拡張生成だからその文章をチャンクごとに分けて
入ってきたキーワードに対して該当した文章を持ってきてくれてLLMにぶち込んでくれるっていう仕組みだから
官兵仕分けマシーン
官兵仕分けマシーンなのよ
AI関係ない
そう関係ないって言うとちょっと語弊があって微妙にこうなんだろう
AIをLLMを使ってる部分はある原作の中で
そうなんだそれは何渡す官兵渡す先の子が手伝ってくれるの
結局それ何でLLMを使ってるかっていうと最初のクエリを発行するっていうところで
ちょっと今何言ってるかわかんないと思うけど
検索クエリってやつ
あそっかかなりそういうデータベース系
単語だけ頭入ってるだけでわかってないすいません
まさにそう検索クエリ
単語だけは知ってる意味はわかんない
例えばさじゃあちょっとまたカネリンのプロフィールの話いくんだけど
ちょっと例え話が毎回なんか貧相になってきたね
いやいや短でわかりやすい
カネリンの歳とか
例えばさ俺がなんかカネリンもうすぐ誕生日だなと
みんな待ってますよ誕生日プレゼント
カネリンに誕生日プレゼントをちょっと考えようかなって思うとするじゃん
次30歳だから30本
30本
お願いします
でそのカネリンじゃあでもカネリン何が喜ぶんだろうわかんねえなと
でもカネリンラグあるじゃんちょっとカネリンラグ使ってちょっと聞いてみようって思ったときに
じゃあプロンプトとしてカネリンに誕生日プレゼントあげたいから考えてって入力するとするじゃん
そうしたらそのまま検索したらさ出てこなくない
カネリンの誕生日プレゼント考えてって言ったときに必要な情報って何なんだろうっていうのが
まずさ検索する前に必要じゃん考えるのが
そうねステップバイステップでちょっとやってこないと
チェーンオブソートで知ってる単語を連発するんだけど
合ってる?
合ってない
合ってないのか
ここでクエリを作るってことが必要なのね
クエリを作る
だからカネリンの誕生日プレゼント何がいいって聞かれたってことは
カネリンの好みを文章から探してこないといけないよねと
なるほどつまりってことだね
つまり趣味とか好みとか好きな食べ物とかまあいろいろあるじゃん
そういう関連の情報をそのそこで単語として生成しなきゃいけない
なるほどなるほど
カネリンとしてプレゼント
検索するための
プレゼントを選びたいっていうための検索するためのワードこれを検索クエリって言うんだけど
じゃあ結構いっぱい出てくるね
いっぱい出てくるカネリンの趣味とかそういう単語で一回そのキーワードが出てきて
それに関するイッチドとかルイジドでそのチャンクを読みに行くのよ
ラグの中を読みに行く
はいチャンクってなんだっけ