これ知らないと恥をかく!?AIの学習と参照の違い。今更聞けないRAGをやさしく解説(ep.12)

RAGの重要性

おちつきAI

AIエンジニアのしぶちょーです。

AI素人のかねりんです。

この番組は、日々のAIニュースで驚き疲れたあなたに、ゆっくりじっくり、AIを学んで落ち着いていただく、そんな番組でございます。

はい、ということで今週も始まりました、おちつきAIラジオ深掘り会と、早速本題にいきたいと思います。

今日のテーマはこちら。

今更聞けないRAGの話でございます。

はいはいはい。

かねりん、RAGって聞いたことあります?

いや正直あんまないんだけどね。

しっくりきてない、早速しっくりきてない。

これね。

何RAGって。

去年バグ流行りしてたのよ。

流行ったの?

うん、2024年はもうRAGの年って言ってもいいぐらいに、もう界隈でRAGRAGRAGRAGって言われてたのね。

いつ、どこだよ。

結構ねAIをなんかやろうと思ったら、生成AIを活用しようと思ったら、RAG使わなきゃいかんよみたいな感じで。

まあすごいね、去年流行ってました。

流行ってたの?

流行ってた。

おかしいな、一応、情報収集してたはずなんだけどな。

結構ね、すごい言われてたんだけど、最近もうなんかね、全然聞かなくなっちゃった。

聞かなくなっちゃったわけじゃないんだけど。

僕は気づく前に終わってたんだ。

そう、RAG終わってるわけじゃないんだけど、界隈ではね、RAGオワコンみたいな過激派もいるぐらい。

あ、過激派なんだ。

やっぱ最近ちょっとね、あんまり話が上の方に上がってこなくなったと。

はいはい。

で、カネリンがそうなように、なんかRAGよくわかんないけど、昔流行ってて今オワコンらしいみたいな。

知らないものが勝手にオワコンになってるっていう二段で置いていかれてる感じなのね。

うん、なんかもう果てしなく置いていかれてる気がするんだけど、もうRAG自体知らないうちに終わってるみたいな。

終わってはないんだよ。最初言っとくと全然終わってないんだけど。

終わってはない。

なんか一旦落ち着いちゃってるよねと。なんか一回流行りが落ち着いてるから、なんか二段で置いていかれてる感じなんでね。

今日はそんなRAG、これ重要なんですごくAI理解する上で、この役割とか仕組みを解説していきます。

RAGの仕組み

RAGって何?って聞かれたら、こういうことなんだよっていうのはカネリン今日答えられるようになるんで。

本当。まずなんかRAGを知りたくてしょうがないんだけど今。

そう、だから今日RAGがわかります。で今日話を聞いたらたぶん今後RAGっていう言葉が目につくと思うから。

あ、つくんだ。

目につくと思う。すごいいろんなとこに書かれてるよ。

逆によくそれに触れずにここまで来たねって感じ?

いやでもね結局、なんだろう、生成AI、RAGって言ったら生成AIの中の話だからみたいな感じでRAGだけが表にポンって出てくることが結構よくあったのね。

だからRAGって言葉を知らなかったら、それがAIの文脈の話って気づかないかもしれない。

じゃあ気づいちゃった方がちょっと落ち着かなくなっちゃうかもしれないね。

いや、あのね大丈夫落ち着けます。RAGを今後知らないと逆に落ち着けなく、逆じゃない。性に落ち着けなくなるから。

正しくね。

逆ではないね。

知っといた方がいいということだね。

知っといた方がいい。

いろんな文脈が、その話も今日の中でちょくちょくするんだけど、絶対理解しておいた方がいいんで。

今日ね、基本的なところから。

理解したいです。

教えていきます。

ただそんな難しい話じゃない。すごい簡単。RAG自体は深いんだけど、概念はね、すごいシンプルなんで、今まで話してきた内容よりも、あんまり脳のリソース使わずに聞けると思います。

じゃあちょっと気を抜いて。

今日は気を抜いて。

喋ります。

気を抜いてるところに質問バーンっていくから気をつけてくださいね。気は抜かせないんでね。

そういうテクニックか。

テクニック。油断してると来るから気をつけて。

もう略語が多くてパンクしてるよ。

でしょ。早速じゃあ略語から行くわ。

早速RAGを説明してほしいよね。

そう。RAGを説明しなきゃいけないよね。RAGって書いてる。RAGなんだけど。

これはRetrieval Augmented Generationの略でございます。

一言もわからん。

Retrievalっていうのが検索ね。

検索。

検索。調べますよっていう検索ね。

検索機能。

で、Augmentedっていうのは拡張。

拡張ね。

で、Generationは生成でしょ。

Generation。そうか。

日本語で言うと検索拡張生成。これがRAGです。

なんかしっくり来る?

もう日本語で聞いてもわけわからんよね。

全然来ないでしょ。

漢字で書いてもね、漢字6文字で検索拡張生成って言われても。

何?GPTとかで検索エンジン検索するやつ?

違うんだよね。

違うのか。

文脈としては似てるんだけど、一言で言うと、生成AIに外部の知識を与えて、それを参照して答えさせるっていう仕組みのことをRAGって言います。

なんかGメール読み込むとか、ドライブ読み込むとかそういうの?

そうそう、それに近い。

近い。

今まで生成AIを使ってきたったらわかると思うんだけどさ、そのLLMの弱点っていうのがあって、

弱点。

それが学習した時点の情報までしか知らないっていうことなのね。

古いよね。

でしょ?なんかよくさ、2024年の何月までしか学習しませんとかって、よく出てくるじゃない。

出てくるね。

最近出てきてないけど昔よく出てきたな。

でしょ?でも最近も結局一緒なのね。

カットオフって言って、この時点までのデータしか学習してませんよっていう時点。

最終更新時点っていうのが必ずあるのよ、生成AIって。

毎回追加追加でずっと更新してるわけじゃないから。

今大体半年前ぐらいかな?

公開はされてはいないんだけど。

でもあれ聞いたら答えてくるのは正しいのかな?あなたはいつまでの情報持ってんのよって。

多分ね正しいのは、どうだろうな。多分正しくは答えるようにはなってると思う。

だけど結局リアルタイムではデータを更新できないのね、生成AIって。

で、毎回毎回そうやってさ、新しい情報くるたびに学習させてたらすごく膨大な計算時間と計算資源がかかるわけよ。

でもやっぱ最新情報とか、あと企業で活用するんだったら自分たちの独自情報?会社のデータとかも答えてほしいわけね。

ブナイの情報?

そうそうそう、会社の中の情報とか、専門技術の情報とかも踏まえて回答してほしいと、LLMに。

なるほどなるほど。

だけど自分たちでそのLLMの学習っていうのをさせるのは結構難しいのよ。さっき言ったように計算リソースがすごく必要になるから。

そうだね、難しそうだね。

難しいのよ。そこでラグっていうのを使うのね。

それはあれかね、検索するためのデータって感じ?

そう、これはね、ラグの技術を使うと外部の知識をAIに受け渡すっていうことができるんだよね。

受け渡す。

これね重要なのは学習じゃないってこと。学習じゃなくて渡してあげるっていう感じなのよ。これがねラグの特徴的なところ。

今イメージしてるのはね、検索エンジンで検索してるのと一緒なのかなみたいな。

ほとんどそれと一緒イメージとしては。

でこれ実際じゃあラグがどういうことをしてるか。検索拡張生成って一体どういうことなのかというとですね。

ユーザーが質問するじゃない。こういうことを教えてねっていうと。

そうするとその質問に対して使えそうな情報っていうのをラグが引っ張ってきてLLMに渡してあげるのね。

それを踏まえて回答させるっていうのがラグのすごく大まかな動きなのよ。

で例えばさカネリンの情報ってLLM知らないじゃない。

知ってるかもしんないけど大丈夫かな。

すごい細かい情報。

体重とか。

カネリンが何が好きでとか体重とかプロフィールみたいなものって知らないじゃん。

初恋の人は誰かとかね。

例えばカネリンのプロフィールすごい詳細なプロフィールのテキストがあるとするじゃん。

これを使って生成AIに回答させたいよっていう時にラグを使うのね。

でラグにカネリンの情報を登録しておくと。

そうするとじゃあ僕がそのLLMに対してカネリンの好きなものって何って言うかっていうと。

LLMは自分で考えずにLLMというかチャット上に聞いた時に最初にLLMが考えるんじゃなくてカネリンの好きなものっていうその文章を検索しに行くのよ。

でカネリンが好きなものってこれっていうそのプロフィールの中から文章を抜粋してLLMにフォローしていく。

それさ検索するときはAI関係ないの?

AI関係ない。

何を検索するかとかね結構大事な。

いいとこ着くね。

いいとこ着いた?

そこがラグの技術。

大事だよね。ラグの技術なんだ。AIじゃなくてそこはラグちゃんが使うってことだよね。

そうAIじゃない。ラグってね結構この後ちょっと詳しい仕組みは説明するんだけど。

ラグってさっき今言ったように結局その質問に対して該当しそうな文章を検索して持ってきてLLMにその質問のプロンプトで一緒にぶち込んであげるっていうものだよね。

結局その学習させるんじゃなくてそのプロンプトの中に情報を入れちゃう。

プロンプトに入れてる感じなんだ。一個手前があるんだねじゃあね。

RAGの実用例

そうそうそう。

いつも僕らが打ち込む手前。

打ち込む手前。そう。一緒に質問のプロンプトの上にそのプロンプトに入れる。

そう。

打ち込む手前。

打ち込む手前。そう。一緒に質問のプロンプトの上にこの文章の中から該当してねっていうのを入れてあげる仕組みなんだね。

なるほどね。

だから実際この学習してるわけじゃないの。

なんか分析させたいデータがある時にそのデータのエクセル渡したりするのと似てる感じ?

そうそうそうそう。

それを自分がこの中からやってほしいっていう文章をあらかじめラグに入れといてそっから持ってこさせるっていう仕組みだね。

なんか犯罪のプロファイリングとかに使えそうだなってめっちゃ思ったんだけど。

刑事の視点すぎるなそれ。

そういうことだよね。それだったら使えるよね。だから犯罪発生情報的なデータベース。

そうそうそのデータベースを。

ラグで接続してさ。

でもまさにそうだね。ラグでなんかこの独自データ活用しようと思ったらその犯罪者のデータベースをラグ化してそこに対して検索をかけるみたいな。

いいね。めちゃめちゃプロファイリングはかどりそうじゃん。

実際にやってるんじゃない?分かんないけどなんか多分使ってそうだよねそういうの。

でも入力したらちょっと怪しいからローカルじゃないとできないって感じなのかな?

確かにローカルで組めるラグは。

やってほしいよね。

多分ねそうそう結局企業ではそういうふうに活用してる。だからその外に出したくない情報とかもあるじゃん。

だからもうラグで組んでそこから情報を持ってきてLLMに渡してあげるみたいな。

いいっすねいいっすね。

だからねよく言われるのは官兵を渡してる感じなのね。

官兵。

LLM本人に回答させるっていうのはなんか脳みそ使ってる感じするじゃん。

元々頭の中に入ってる情報を吐き出せるみたいな。

そうではなくてあくまでも官兵をふった出してこの中からこの中に答え書いてあるからこの中から答えてっていうふうに。

そういう感じなの?

LLMに渡すそれがラグ。

AIの学習と参照の違い

なんかデータを提供するっていう感じじゃないんだ。

データを提供するだから官兵というデータだよね。

官兵なんだそれ。官兵っていうイメージなんかちょっと違うんだな。

結局でも官兵文章の塊を渡してあげる。

ここら辺に書いてあるぞきっとこの質問の回答はと。

それを使って回答するから結局根拠が言えるのよ。

ここの部分を見てこの回答を作りましたっていうさそのソースを示すことができるようになった。

これもラグの仕組みの一つだよね。

じゃあこれさシンプルな話で今してもらってるけどさ、

めちゃめちゃいろんなものラグってるんじゃないの?

ラグってる。

いろんなものつなげられるよね。

そうそうそうそう。

実際にやってんの?もうバシバシに。

もうねその実装フェーズさっきさそのラグオアコンだよねみたいな話がされてるってしたんだけど、

なんでオアコンとか言ってんのよ。

それはもう実用化のレベルまで達して、

検索手法の解明

いろんな企業で普通に使われるようになったから、

みんなラグで驚かなくなったってことだよね。

なるほど、慣れちゃったの?

そう。だから普通に何だろう、なんか生成AIを企業で活用しようと思ったらラグ使うから普通に。

独自のデータを使いたいからってこと?

そうそうそう。それが当たり前になってるから、

もう別に今更ラグでみんな驚かないというか。

そうよね。身近な例だとさっき言った通り、

もうちょっと狭い意味か、こういうラグって言ってんのは。

そうだね、実際に何でも文章を突っ込んで、そこから参照させるっていう感じ。

ざっくり言うとそうなんだけど、結局そのラグオアコンを使って、

実際に何でも使って、

何でも使って、

ざっくり言うとそうなんだけど、結局そのラグを組むっていうのが意外と大変なのよ。

さっき言ったように、ラグってあらかじめめちゃくちゃ大量の文章を

登録しておいて、

自分が質問した内容に対して、

その文章の中からきっとここが該当だよねっていう箇所を検索で持ってきて、

LALMに渡す。

で、該当させるっていう仕組みなんだけど、

このLALMに渡すところ、

検索して持ってくるっていうところは、

普通にアルゴリズムなのよ。

だからAIじゃないのね。

AIじゃない。

検索をさせていろいろ持ってくるんだけど、

その検索をさせるのも結構技術がいるというか難しくて、

そのラグの形を作るっていうのが、

結構ね、ミソなのよね、ラグの。

なるほどね。

それこそ検索エンジンのシステムみたいな感じ?

そう、それに近い。

難しそうだね。

近いんだけど、

結局さ、検索ってじゃあどういうことなんっていう話なのよ。

はいはい。

例えばさ、我々結構簡単に検索っていうと、

ワード検索って言って、

例えばPDFとかでさ、コントロールF押すとさ、

検索できるじゃん、文章の中を。

できるね。

で、なんか文章入れるじゃない、言葉を。

そうするとそこにさ、

その文章と一致した箇所が検索できるでしょ。

この単語を検索したいなみたいな。

日常的にその検索しかしてないよ。

してるじゃんね。

検索ってそのイメージでしょ。

そのイメージはね。

それでもいいんだけど、

それってキーワード検索っていうもので、

文字の一致率をすごく重視してるのね。

だから例えば文字の揺らぎとか、

同じ意味合いだけど違う言い回しがあった時に、

拾ってこれないのよ。

落ち着きと漢字の落ち着きと。

そうそうそう、それも全然違うじゃん。

同じなんだけど意味。

あと類義語とか、落ち着くとか。

静かにみたいな。

そう、静かにとかゆっくりするとか。

ゆったりまったりとか。

まったりとかさ、いろいろ類似の言葉ってあるじゃん。

そうだね。

落ち着くの一言からそれって拾ってこれないじゃんね。

キーワード一致だと。

そうね。

でも実際に文章の中って、

そういう類似で拾ってこないと、

なかなかその該当箇所って拾ってこれなかったりするのね。

そうだよね。

ドンピシャで同じ単語がなきゃいけないってことだと、

ありませんってなっちゃうね。

なっちゃうじゃん。

だからそれを実現するための仕組みっていうのも、

ラグの中に組まなきゃいけなくて。

ほいほいほい。

それがいわゆるベクトル検索っていうものなんで。

ベクトル検索。

データ処理の課題

ベクトルごめん、今普通に噛んだ俺が。

そんなこともあるよ。

ベクトル、ベクトロって言っちゃったけどベクトルね。

ベクトル矢印。

ベクトル、はいはいはい。

キーワード検索っていうのはさっき言ったように文字の一致を見て、

同じような文字列を引っ張ってくるっていうのが検索なんだけど、

もう一つが。

なんか前も出た?ベクトル検索。

出ました。さすがやね。

次元を落とすやつだよ。

あ、ちょっと違う。

しまった。余計なこと喋らなかった。

次元はね、次元の概念はね。

あってるあってる。

その時ベクトルとかいう話、どっかで出た気がしたな。

でもね、同じような概念で、エンベディングっていう方式で。

エンベディング。

そう、言葉をベクトル、意味に変換して。

うんうん。

でもそう、次元を落とすっていうか、その意味空間に埋め込んであげる。

意味空間。

そうそう。犬とか猫とかって全然違う単語だけど、動物っていうカテゴリーだから、

大体この位置だよねっていう。

そういうのをベクトルとして埋め込むのね。この位置ぐらいだよねっていう。

矢印がはまってんの?

そうそう、矢印の、もう矢印がこう、この方向、次元数がいっぱいあってさ、

そこにいっぱい数字が並んでるのね。

だから我々の想像してる矢印とはちょっと違うんだけど、

ここだよっていう感じでこう、矢印で指し示してるイメージだよね。

犬の方だよみたいな。

そう、犬の方だよ、猫の方、動物のカテゴリーだよねと。

ふわふわな動物のカテゴリーだよねみたいな。

哺乳類だよねみたいな。

まあそういうところに意味の中に入ってると。

だからキーワードを入れた時に、その意味の近いところまで引っ張ってこれるよっていう。

まあそういう検索、意味の近さで検索するっていうのをやるのね。

なるほどね。

分かったような分からんような矢印が埋まってます、僕の頭の中に。

いやでもそのイメージで全然いい。

どうしてもその意味空間とかって、

もう我々の頭の中では想像できないから。

ああ、そうか。

人間ってもう3次元超えたらさ、イメージできないもんで。

3次元じゃないんだ。

そう、次元数はもう何千、何百次元何千次元とかそういう話だから。

じゃあもう可視化できない。

もう我々、到底イメージできません。

なるほどね。

そういう意味空間に埋め込むよと。

で、そっからまた持ってくるよ、意味を持ってくるよっていうのをやるのね、ベクトル検索って。

で、結局そのベクトル検索とキーワード検索を掛け合わせたハイブリッド検索っていう、

文字列も一度も見るし、意味の一度も見て、ここら辺該当箇所だよねってゴソッと持ってくると。

で、それをLLMに渡してあげるよっていうのが、ラグの中で起こっている検索なのよ。

ハイブリッドなんだ。

ハイブリッド。

その検索って何?そんなラグで初めて実装されたの?

Google検索とかは使ってないの?

使ってる使ってる。

使ってるんだ。

でもそのベクトル検索は使ってないんかな。

使ってない。

ないと思う。

使えばいいのにね。

結構学習コストかかるね。

学習コスト、埋め込みに結構時間かかる。

これはどこのベクトルのあれだっての、データがないと検索できないからってこと。

そうそう、結局与えられ、今回もその結局さ、今検索の話したんだけど、

これはアルゴリズムで検索で持ってくるよっていう話。

あくまでもね、なんだけど、そもそもじゃあその登録する文章を全部ベクトルに変化しなきゃいけないんだよね。

すごい大量のカネリンのプロフィールがあってさ、生まれてから今までのカネリンの遍歴みたいなのがあったとするじゃない。

これを全部エンベディングって言って、さっき言ったようにベクトル空間に埋め込んであげなきゃいけない。

その接続するデータを全部ベクトルにするの?

ベクトルにしなきゃいけない。

なんかすごいめんどくさそうだね。

そう、それがねすごくめんどくさい。

しかも、

手作業でやるのそれ。

もっと、

カネリンの趣味何ですかって聞いたときに、ここら辺にカネリンの趣味ありそうだぞっていうのを持ってこなきゃいけないんだけど、

カネリンのプロフィールが10万文字くらいあるとするじゃん。

そしたら10万文字丸々ボンって入れられるわけじゃなくて、

チャンク分けって言って、

例えば1000文字くらいの単位で、

これ全部ベクトル空間に埋め込んであげなきゃいけないんだよ。

結局そのカネリンの趣味って入力したときに、

この1個の丸々の1000文字の中にきっとそれが入ってるぞっていうその単位、ユニット単位ごとに持ってくるのよ、情報を。

なんか、段落みたいなイメージなんかしら。

そうそうそうそうそう。

はぁー。

それ、それは何、勝手に自分で分けるのそれ?

きっとね。

でも、

データベースとか色んなデータベースもそう画像とか

画像もね画像はちょっと特殊ラグに入れられるけど結構特殊な技術使わないと入れられなくて

まぁちょっと簡単なために文章で文章ねテキストね話してもらうけど

そうやってねやっぱ段落分けみたいな感じになっててその文章の中でもどこで文脈が切れるかって

なかなか判断するの難しい一応自動でチャンク分けっていうのはしてくれる

仕組みもあるんだけどそれが本当にその精度正しく出るチャンク分けなのかはわかんない

なんかテキストめっちゃAI得意 AIじゃないのか AI得意だからすげー的確に分けてくれそうな気もするけどな

そう的確には分けてくれるその文脈を考慮してそのなんか文章の途中で切るとか絶対ない

ちゃんと言い終わった後一塊で分けてはくれるんだけどそれが自分とか我々がしたい

ユーザー側がしたい検索と一致してるかどうかはまた別の話なのよ

AIの学習方法と文脈

例えばその完全にさ何だろうその文章の意味が全くスパッと切れて完全に次の章に行くタイミングってそんなに多くなくて

必ず上の文脈を少し背負って下の文脈があるんだよね

まあそのね章ごとに区切れてたらそこで切れるけどそんな章がいっぱい区切れてるわけじゃないし

だから必ず上の文脈を背負って下の文脈があるからでもそこでチャンクを切るとその繋がりって完全に切れちゃうのね

チャンク切ると切れちゃうんだ完全に切れる上下の文脈もうない

ちょっと切りづらいねそれねそうだからオーバーラップって言って

同じ文章を切るんだけどちょっと上の文章の最後の方を下に追加してあげるとか

だからチャンク切るんだけどオーバーラップしてるお互いにお互いの文章持ってる

それよくさ俺がど長い文章をスクショして相手に送ったりするときにちょっと接続部分を残したりして

そうそうそうねえそういうことめっちゃいい例え

やるよねめちゃくちゃいい例えやるじゃん

2,3行ちょっと残してこの続きこっちだって分かるようにして送ってあげるじゃん

そうそう繋がり分かるじゃんでバラバラになったらさあこれこの次どこだってなるじゃん

じゃなくてこうあらかじめその繋がりの部分が見えてるみたいなそういうのオーバーラップって言うんだけど

オーバーラップって言うんだじゃあチャンク分けしてたんだ俺

そうチャンク分けしてるね兼ねりセルフでセルフでやってるねそうそうそういうね細かいそのノウハウがあるのよね

でもそれも最後の数行入れたからって意味通じんの?

だから意味通じるこれ抜いちゃいけないよねここオーバーラップ必要だよねっていうのは

接続されるってことそのチャンク同士が

いや接続はされないけど文脈を少しこのこの文脈抜いちゃダメだよねみたいなところはオーバーラップさせときましょうみたいな

オーバーラップ技術の重要性

そもそもやっぱ繋がりを拾ってこれたりするのねそれで

っていうのもあって結局そのチャンクの区切り方とかもノウハウになってくるだからラグ一回組んでみて実際使ってみたけどあんま精度でないねと

だったらチャンク分け変えたりとかオーバーラップ変えたりとかちょっと泥臭い作業があるのよ

それ手動なの? それは人間がやらなきゃいけないきっついねそれ

そう精度が出ないなぁじゃあチャンク分け変えるかっつって結局でもしんど

AIってそうだよあのめっちゃ泥臭いのよそうなの? うんあのねスマートではないよ

そうなんだそれいずれは自動化されるのそんな作業

されないの? 自動化はできるようなそういういろいろ便利なツールはある

きついよねでもそれ結局ねそのノウハウなのよ

あの生成AIの文脈じゃないんだけどさ普通にさ画像認識とかその犬猫を分類するとか

そういうのもハイパーパラメーターって言ってハイパーパラメーター? そう人間が決めるパラメーターがいっぱいあるの

これは0.3にしようとか0.4にしようみたいなテンパレ打ち合うみたいなあそうそうそう

なんかねそう学習率とかなんとかそのねいろいろなね

分け方があるのよいろんなパラメーターがあってそういうものの組み合わせこれはちっちゃい時これが大きくてこれがちょっとちっちゃいみたいな

そういう組み合わせをもうグリッドリサーチって言ってさもうアホほどやんのねグリッドリサーチ

もうこれを位置変えた時にこれ位置変えてこれ位置変えてみたいなさもうとにかくいっぱいランダム試して

一番いい組み合わせを回数で見つけるみたいなとにかくいっぱいやって見つけるみたいなそれを何手動でそれをやってんのいっぱい

そう一番いいとこ見つけようつってそのなんか計算式でさスマートにこれが最適だって出るわけじゃなくてもうとにかくやってみて

あ精度出た精度出ないあこの組み合わせ出た出ないあこれ出た出ないっていうのをひたすら繰り返すっていうのがAIの実装なんでね

きつい全然っていうもうパラメーターがアホほどあって華やかじゃない

でその計算にさ何十分もかかるからさああ計算終わったああダメだったああ計算終わったちょっと良くなったみたいなやつをもうひたすらやっていく

AIエンジニアさんってそういうことやってる人なのそうすごく大変じゃん AIエンジニアっていうのはそういうことをやってる人です

なんかそんな泥臭いことやってるとは思わなかったいやもう本当にそのパラメーター頭が下がるねそれ

パラメーター決めるのもめんどくさいしその学習データをさ綺麗にするっていうのもめんどくさい

このラグの話にもつながるんだけど結局さじゃあラグの情報として

入れるよとこの文章入れるよっていう文章も本当にそれ必要な部分しかないのかとは無駄な部分入ってんじゃないのかっていうのも人間が見なきゃいけない

だからさ例えばなんかのマニュアル丸々入れますよとか説明書丸々入れますよという時もこの文章いらないよねとか

この中期ってあんまりこの検索に必要ないよねみたいなとか省いていかないとゴミが入っちゃうとやっぱそれだけノイズになるのよ

それがゴミかどうかって人間が判断しなきゃいけないからこれ入れよっか入れないかっていうのを逐次人が判断して作っていかなきゃいけないそのデータベースを

結構めんどくさいでしょ聞くだけでも今の話聞いて思ったけどさ結構いつも雑にデータぶち込んでるのよ

結構長文のさデータバーンぶち込んでこれこれしてみたいないうことあるけどさ必要ない情報とかも入れちゃってんのねその検索に

それ抜いた方がいいってことだよねそういうのじゃあ厳密に言えば抜いた方がいい無駄な推論とかそのハルシネーションとかさ

間違ったことを言ってくる確率が上がるのね AIの世界ってガーベッジインガーベッジアウトってAIだけじゃないんだけどそういう言葉があって

ガーベッジインゴミ入れたらゴミ出てくるよとだからどんなに賢くてもゴミのデータ入れたらゴミしか出てこんと

要らん情報を言わん方がいいとそう要らん情報無駄な情報とかノイズになる情報は極力

排除してきれいにしてあげたそういう整理されたデータを入力してあげることで精度が上がってくるのね回答精度

そうですか俺さいつも検索する時にさ自分の情報に合わせてなんか回答してほしかったりするじゃん

だからなんか今自分こういう事業やっててこういうポッドキャスト番組やっててこのポッドキャストスタジオはこういうのを目標にしててみたいなの全部文章残してあって

そのままさこの機材構成とか持ってる機材のリストとか全部書いてあってうちのスタジオにある植物の名前と植物の背の高さとみたいなの全部書いてあるの

もう全ての情報書いてんの毎回それコピーしてペンって貼ってんのよだから全然関係ない情報が8割ぐらい入ってたりするんだけど

それちゃんと主者選択してぶち込んであげないとダメってこと

そうね結局そのコンテキストウィンドウって言ってさプロンプトが1回で入力できるその文字の数って決まってるんだけど

最近はそのさ文字の入力できる数がめちゃくちゃ増えてるから実質無制限みたいな感じだもんね

そう多分ね今JATGPTの5とかってもうなんか最近さ公開してないのよあんまりどのぐらいのトークン入りますよみたいな

RAGとグラフラグの活用

一説によるともう本1冊とかまるまる入っちゃうぐらい 1回のプロンプトでボンって入れるのよね

10万文字とか入るんだうん平気で10万文字とか入っちゃうんじゃないかって言われていて

ただ当然その10万文字の中にほとんど使わない 9万文字使いませんよみたいな感じだったらそれノイズになるから

回答精度は落ちると思うその分あと無駄になんか多分推論するだろうし

必要な部分をクリティカルに入れてあげるっていうのは結構今でも重要

そうすかそうそう

ちょっと反省しましたよその1個1個手動でそんな裏で実装してると聞いて

そうなんだよねそのラグはねまあ結構自動でチャンク分けバーってしてくれる

まあそういうフレームワークもあってそれだけでも十分結構精度は出たりもする特にさノーションとか

のデータをそのままラグのデータとして入れるってことが結構できるのよ

あのディファイとかディフィか正しいディフィでさ1回ラグを組んだことがあって

そのノーションに入っているデータをそのままチャンク分け自動でしてそのディフィの方でラグとしてこうガッと入れるみたいな

その情報をもとに回答してくれるよみたいなのが簡単に組めたんだけど

まあそれはそれで結構ねその荒いチャンク分けでもそこそこうまくいった

まあなんかその軽くラグやってみたいよっていうぐらいだったら全然できるんだけど

多分なんか企業のさ何らかのチャットボットの中で使おうと思ったら結構ちゃんとやっていかないとうまく作れん

ちゃんとやるってのはささっきのそのいろんなパラメーターの数字を動かすってこと

そうだねラグで言ったらそのちゃんとデータのチャンク分けとかまあそういうところをこのうまくコントロールしてあげたりとか

で結果を見て良さそうなとこに合わせるってこと

そうそうそう検索の方法をちょっと変えてあげたりとか

あと最近だとねそのいろいろその最近流行っているのがグラフラグっていうやつで

グラフラグ

あのさっき言ったようにそのベクトル検索よりもより関連性が近いものを検索できるようなグラフラグっていうのがあるのね

もうその言葉同士とか概念同士をグラフっていうかその繋がりだよねこのなんか地図みたいな感じで繋げちゃう線で

はいはい

関連をこれとこれは関連してるよねとこれとこれはもっと関連してるよねみたいなだから

かなりにこの例え分かるか分かんないけどマジカルバナナ分かる?

マジカルバナナうんなんか言葉で連想ゲームみたいなやつだっけ

そうそうそうあんな感じバナナと言ったら黄色

あーあったね黄色と言ったらバナナみたいな

あー戻ってきたもう終わりはい無限ループ入りました広がりませんでした

広めイメージが卵みたいなそういう事か

なんかねそういう関連でちょっとマジカルバナナの例えが正しいか分かんないけど

言葉同士概念同士の関連をその自分で設計して繋げてあげる

これ手動でやるんだ

それ手動でやるもちろん

そうするとさそのドメイン知識だからそのこれとこれって繋がってるよねみたいなのって結構専門知識だとさあまり分かんなかったりするのね

っていうのをその分かりやすく知識同士をグラフ構造で繋いであげて

その能動で関連を辿っていって検索するっていうそれグラフラグっていうのがあって

それはもう単なる類似度とかそのベクトル検索の類似度とか言葉検索の一致度じゃなくて関連性を使っても検索ができるのよ

それ三つ目の検索指標ってことそれ

そうそうそう最近流行ってる

でラグの発展系としてグラフラグっていうそういう技術が今あって

ラグは全部グラフラグではないんだ

グラフラグではない基本的にはベクトルさっき言ったようにベクトル化して埋め込んであげるエンベディングっていうのとあとキーワード検索を組み合わせたハイブリッド検索をするか

そうやってグラフ最近はそういう関連性もちょっと見ましょうって言ってグラフラグを作る

たださっき言ったようにグラフ作るのめっちゃ大変だから

じゃあ一個一個やるんだもんね手伝いを

最初はねまず自動でやってくれるよ

自動でやってくれるんだけど結局修正とかしなきゃいけないから

これ今までのラグにプラスアルファして関連付けるってこと?

いやもう完全にグラフデータベースとして作っちゃうってこと

別のものってこと?

別のもの

大変だねじゃあこれプラスアルファやれればもっと精度上がるよってこと?

そうそうグラフラグを作れば

作れば

うんもっと精度が上がる可能性もある

データ収集の難しさ

だからどういうデータを入れるかによってじゃあこれグラフラグでやりましょうかとか

一回普通のラグ組んでみましょうかっていうのは結構変わるところ

だからそういうねまずデータ収集ラグの難しい所ってさまずどのデータ入れるか

これゴミだよねっていうの取捨選択するのも難しいし

前処理だよね無駄なとこ省いたりとかチャンクをどうやって分けるかとかも難しいと

結構意味を探すカンペを作ってねLLMに渡すのにも結構技術が要るよと

なるほどねこれさ毎回こんなことやっとるんじゃん最初に作っちゃえばもうだいたい後放置でいいのこれ

そうここがね結構ラグの良いところで一回作っちゃってそれなりに精度出るなと思ったら

あとは追加していけるのラグにデータを追加していってちょっとそこを追加するたびに

その今までの形崩れてないよねちゃんと検索同じのできるよねって評価がいるんだけど

一回作っちゃってそれなりにできてるよってことがあれば結構あとはメンテナンスして運用していくってことができる

AIの学習と参照の違い

なるほどね最初が一番大変だそう最初作ってうまくいくかどうかが結構大変

ただやっぱそのすごくラグって重要でさっきも言ったようにLLMに新しい知識を与えるのってめっちゃむずいのよ

よくねこうAIちょっと話変わるんだけどさ AIに対する解像度この人高いな低いなっていうのを

見分ける便利な言葉があってこれすごいこの言葉を覚えたらどやれるね

この言葉をどういうふうに使ってるかを判断すれば結構その判断できるんだけどそれがねもうすでに何回も言ってる言葉よ

学習です学習? 学習ほいほいほいシンプルな言葉だね

学習っていう言葉をどういう文脈で使ってるかをしっかり聞くとその人のAIへの解像度がめっちゃわかるの

うわー何でもかんでもAIに学習させてって言ってそう俺そうそれ学習みんなねその

いやこの文章をLLMに学習させてとかさなんか俺の好みを学習させてるからとかって言う人いるんだけど

皆さんに見えないけどすごい顔してますあのもうね指摘はしないんだけど学習じゃないんだねそれって

いっちゃってるよ指摘してほしい指摘して

いやあのなんだろ縦膜の隅つつくなよこいつキモいなって思われるから言わないけど

どっちもいいやろみたいな嫌なやつって思われるね

そうでもその学習っていう言葉はAIにとってすごく重要でなるほどね

基本的にはパラメーターの更新これが学習なのよ何何

パラメーターの更新パラメーターの更新

だから脳みそをいじるどういうこと

そのさ結局そのニューラルネットワークとかさまあAIって言うとなんかその脳のシナプスを模したなんか網網の構造があるじゃない

落ち着きAIのさ落ち着きAIのロゴロゴにもあるけど

あれがまあいわゆるさAIのその模式的な形なのねどんなものでもだいたいああいうネットワークの構造になってるんだけど

あのつぶつぶ1個にパラメーターっていうのが設定されてるのよ

AIの学習ってそのパラメーターを更新してものを覚えさせるのよねなんか学習データ入れるじゃん

でこれを学びましょうって言ってまあだいたいその推論とかして誤差当たり外れがあって間違えちゃったから学習しますって言って

そのパラメーターを更新していくのあのつぶつぶの中のねそうするとあ俺はこれ間違えてたんだって言って

AIがその間違いを学習して賢くなるっていう脳みそがこう更新されるのね

あのつぶつぶのつぶつぶの中身をちょっといじるってことそうつぶつぶの1個1個につながりの部分その1個1個にこうパラメーターっていうのを振ってあって

その数字をちょっとずつ変えていくのよね学習するってそれを何回も何回も繰り返すことによって

そのどんどん賢くなっていくそのパラメーターの数がその何億とか何兆とかあるのそれをもうすごい pc でガンガン更新していくっていうのを

あの基本的にはやってるAIっていうのはそれが学習それが学習

それって何LLMの学習いやもうAIの学習

AIの学習 LLMであろうが何であろうが

そのディープラーニングと呼ばれるものはそういうふうに基本的には学習をしてるんだけど

じゃあさっき言ったように自分の好みを学ばせてるよとか覚えさせてるよっていうのは学習なのかって言われたら

それはパラメーターの更新は伴ってないから学習じゃないのよ

ああそうだから結局プロンプトの中にどっかに打ち込んでるだけ

ああそっかそっかそのさっき言ってたプロンプト入力画面の手前だそう手前に打ち込まれてるだけだね

はいはいはいはいはいはい LLM的には脳みそは何にもあんたのことは知らなくて

勘弁だ勘弁回答前に勘弁を渡されて

この人こういうお便り届いてますみたいな感じああ勘弁を充実させてるだけだね

GPTのあなたの情報みたいな乱とかねそうそう

メモリーとかそう

なるほどそうまさにそうメモリーのところにデータとして入っていってるだけで

それをAIが理解してくれてるわけじゃなくて毎回それを読みに行ってるだけなんで

毎回勘弁を読みに来てんだ勘弁読みに来てる

学習じゃないですそれは勘弁ですそう勘弁ですだから理解してくれてないです

毎回始めましてですいつも始めましてだけど回答する前に勘弁を読んでるから

カンニングだカンニングしてます

勉強してないよあなたそう

カンニングしてますでしょでテストを受けるときにさ

そうやって勘弁見てたらそれは学習じゃなくない学習じゃないじゃん毎回勘弁

勘弁でしょ勘弁を元に回答してるだけでしょ

そしてすぐに忘れるってすぐに忘れるだから実は理解してくれてない

誰もあなたのことを理解してない悲しいな何その悲しい言葉

誰もっていうかAIか誰もあなたのことを理解してない

よくさあるじゃんなんかさAIがさこうセラピーみたいな感じでさ対話してみたいな

実はただ勘弁見ながら喋ってただけですってことだよねそう

寂しいねなんか昨日ねなんか昨日も来てくれましたねみたいな感じかと思いきや

別にそうではなくてそういうふうに書いてあるから昨日もこういう会話したっていう記憶があるから

そっからね今までやり取りしてブロンプともテキストとして入ってるからそこを考慮して回答してるだけ

過去のやり取りのブロンプとも勘弁になってるってことだよね勘弁になってるだけ

大量の勘弁を積み重ねだそうそういうことなんですだから学習じゃないんですこれは

なるほどね学習という言葉を安易に使っちゃダメだそうだからね

事務長みたいなエンジニアにこいつぺって思われてんだ

いやいやいやみんなそうで結構学習っていうことを大事に使う人もいるし

なるほど諦めて一般的にわかりやすいように学習っていうふうに言ってる人もいるけど

なんて言えばいいんだろうそれみんな学習って言うよ学習って言うんだけど

最後のところにちょこちょこっと厳密に言うとちょっと学習じゃないんですけどみたいな感じで言ってお茶を飲みます

それ学習って最初から言わずになんかいい言葉ないの参照だね

参照いいね厳密に言ったら参照

RAGと検索クエリの重要性

自分の好み参照してもらってるからさってそう

参照でもわかんないでしょなんかすげーわかりにくいでしょ

なにそれってでもすごく的確な言い方だよね

すごい的確な言い方それが正しい言い方なんだけど

だけどやっぱね学習って言うとわかりやすいでしょAIに学習させて俺のデータを学習させてるんだって

いやでもそれ落ち着けないそれもう落ち着けないよそんな話聞いたらでしょ

いや学習じゃないよって俺多分支部長みたいなエンジニアじゃないから俺言っちゃうわ

いや言っていい参照ですよって

そこをちゃんと使い分けてる人学習って言わずに参照って言ったりとか

そのちゃんと学習の部分は学習って言ったりするとあこの人わかってる人だみたいな

わかってる人だって思われたい

そうだからその学習って言葉を使うときに本当に学習か学習とはなんだっていうその意識をねあの持ってほしい

それすごい良い情報じゃないそれ

本当にそれを考えるだけで結構AIの解像度めっちゃ上がるのよ

これは学習かそうじゃないかってこう仕分けれるな頭で

仕分けれる学習なのかどうかじゃあどういうふうにアルゴリズムで回答してるのかとか

どういうふうに回答してるのかって見た時にこれ学習じゃないんだとか

これ学習なんだこれパラメータ更新してるんだこうやって学んでるんだみたいなやつが

見えてくるというか調べると分かったりするからそういう一個ねやっぱ視点を持った方がいいかな

でラグも結構すごいねラグに学習させてるとかって

なんかこれも謎の言葉なのねこれって

ラグに学習させる

これも謎すぎてよくわかんないんだけど

ラグはあれだよねニューラルネットワークじゃないから

ニューラルネットワークじゃなくてあくまでも原作拡張生成だからその文章をチャンクごとに分けて

入ってきたキーワードに対して該当した文章を持ってきてくれてLLMにぶち込んでくれるっていう仕組みだから

官兵仕分けマシーン

官兵仕分けマシーンなのよ

AI関係ない

そう関係ないって言うとちょっと語弊があって微妙にこうなんだろう

AIをLLMを使ってる部分はある原作の中で

そうなんだそれは何渡す官兵渡す先の子が手伝ってくれるの

結局それ何でLLMを使ってるかっていうと最初のクエリを発行するっていうところで

ちょっと今何言ってるかわかんないと思うけど

検索クエリってやつ

あそっかかなりそういうデータベース系

単語だけ頭入ってるだけでわかってないすいません

まさにそう検索クエリ

単語だけは知ってる意味はわかんない

例えばさじゃあちょっとまたカネリンのプロフィールの話いくんだけど

ちょっと例え話が毎回なんか貧相になってきたね

いやいや短でわかりやすい

カネリンの歳とか

例えばさ俺がなんかカネリンもうすぐ誕生日だなと

みんな待ってますよ誕生日プレゼント

カネリンに誕生日プレゼントをちょっと考えようかなって思うとするじゃん

次30歳だから30本

30本

お願いします

でそのカネリンじゃあでもカネリン何が喜ぶんだろうわかんねえなと

でもカネリンラグあるじゃんちょっとカネリンラグ使ってちょっと聞いてみようって思ったときに

じゃあプロンプトとしてカネリンに誕生日プレゼントあげたいから考えてって入力するとするじゃん

そうしたらそのまま検索したらさ出てこなくない

カネリンの誕生日プレゼント考えてって言ったときに必要な情報って何なんだろうっていうのが

まずさ検索する前に必要じゃん考えるのが

そうねステップバイステップでちょっとやってこないと

チェーンオブソートで知ってる単語を連発するんだけど

合ってる?

合ってない

合ってないのか

ここでクエリを作るってことが必要なのね

クエリを作る

だからカネリンの誕生日プレゼント何がいいって聞かれたってことは

カネリンの好みを文章から探してこないといけないよねと

なるほどつまりってことだね

つまり趣味とか好みとか好きな食べ物とかまあいろいろあるじゃん

そういう関連の情報をそのそこで単語として生成しなきゃいけない

なるほどなるほど

カネリンとしてプレゼント

検索するための

プレゼントを選びたいっていうための検索するためのワードこれを検索クエリって言うんだけど

じゃあ結構いっぱい出てくるね

いっぱい出てくるカネリンの趣味とかそういう単語で一回そのキーワードが出てきて

それに関するイッチドとかルイジドでそのチャンクを読みに行くのよ

ラグの中を読みに行く

はいチャンクってなんだっけ

RAGの基本概念

ラグの中の文章を読みに行く

あチャンクだうん分かれてるやつだチャンク

チャンクでこのチャンクにカネリンの趣味書いてありそうだとピュッと持ってきて

ここにカネリンの好み書いたりするとピュッと持ってきて

該当したのをいっぱい持ってきて

でこの中でちょっとカネリンのプレゼント考えて情報として渡すと

なるほど

そういう検索のクエリを発行する部分にはちょっと生成AIを使う

ああそうですか

その生成AIは何も入ってんのそのラグに

ラグの中に入ってる

クエリを生成するための生成AIのモデルが入ってる

そこ専門に特化してるんだ

そうそうだからそんなにそれを動かすことによってコストがバッて上がらないように

本当に検索クエリ用のやつが入ってるんだけど

だからラグの中にも一応AIは入ってはいるそこの部分とか

検索持ってくるところは完全にアルゴリズム

はいはいはい

あとはいっぱい持ってきて

こんだけ候補ありますって中にリランキングっていって

その中でランク付けしてこれ渡そうこれ渡さないっていうのは決めたりするんだけど

そこのでも時々LLMで判断させるっていうのもあるんだけど

そういういろんな技術があって候補を渡して

でプロンプトの最初のところにぶち込んであげて

その中から生成させると

なるほどね

そこにちょっとAIは使っているんだけど

ちょっとだいぶ解像度上がってきたね

なんとなくラグわかってきたでしょ

わかってきたねうんうん

これ全体を使って

プロンプトの手前ってのがだいぶわかりやすいな

でしょそこに入れてるだけの結局プロンプト一緒にね

だから学習ではない

その学習ではない文章を取ってくるラグの中にも別に学習の工程は入ってないから

結局3章だ

AIの学習と参照の違い

じゃあ見分けるための魔法の言葉を手に入れたよね今日ね

学習

学習っていう言葉をこの人使っちゃいけない文脈で使ってないかっていうさ

そう大事

使っていたらこっそりニヤッとしてください

そうそうそうこの人わかってないなこの人わかってないな

雰囲気系だって

この話聞いてなんかめんどくせえこと言ってんなっていう人と

頭ちぎれるほど首縦に振る人2種類いると思う

そうめっちゃ気になってたけどなんか銃箱の隅つくづくと思って言えなかったんだっていう人ももちろんいる

そうなんだエンジニアの人とかはそうなんだろうね

エンジニアの人はそうだと思うめっちゃ気になるなこれ学習じゃないんだけどなめっちゃ学習って言ってるなこの人

僕も何でもかんでも学習って言ってたな

特に上司とかに多いよね上司というかその偉い人にさAIで学習してって学習しないんだけどな

まあそうですね学習しましたみたいな

でも今の説明をするために1時間ぐらい必要なわけでしょ無理だよね

そう1時間説明して手に入る回数のがこれだからなかなかね忙しい人に対して説明できないっていうのはあるんだけど

そうだねもうこれからはもうこれ聞いてくださいってニヤッとすればいいんだね

そうだからねそうこれね学習今日はね実はねそのラグを背景にしてこの話がしたかったっていうのはある

すごくいいじゃん今日テーマをラグって言われた時点でもうなんかつまんない回かなって

ちょっと待ってはっきり言うね

なんかもうまだ1ヶ月ぐらいしかしてないのにもうつまんない話題になってきたかなって思ったけど

ずっとえらい面白かったからね

心配しなくてもね大丈夫カネリンが楽しめるようにつまんないカネリンがつまんないなとなったらあのもう終わりなんで

あははは

ちゃんとね考慮してるよカネリンの表情を

表情やっぱ表情必要なんですかねやっぱり

表情必要でカネリンこの話あんまあれだな楽しくなさそうだなと思ったらちょっとカットしようみたいな

あるなるほどアドリブでいっぱい線があるんだ

あるよ

台本でこう分かれてんだ

うん今日だって説明しようと思ったけどこれいつもカネリンにはまらないから今日はいいかなって省略した部分あるもん

あら

何だと思う

え?何だと思う

何だと思う

何の項目だ毎回必ず俺が入れてたけど今回入れてないもの何だ

え?そんなあった?

毎回入れてた

毎回入れてた?

深堀界には深堀界には毎回入れてたけど今回は入れてない

今回は入れてない

うんものがあります何でしょう

ここがさりげなくカットされてたってこと?

さりげなくカットしてるもん何でしょう

英語の解説

ブブー違います

あでも英語読んだもんねなんとかラグジュアリーアタックジェネレーション

もう忘れてんのラグジュアリー

何だったちょっと本当分かんない

ちょっとあらかじめもう一回何回か入れとかないとね頭に定着しないから

リトリーバルオーギメンテッドジェネレーション

オッケージェネレーションね

検索拡張生成ね

検索拡張生成

何カットしたちょっと本当分からんな

何カットされたみんな分かるこれ聞いてる人

今回カットしたのはですね

今回カットしたのは

はい

ラグの技術の歴史です

おーそうだそうだ

いつも歴史最近

何年に出てきてみたいな

歴史シリーズ結構冗長的になるというか

はいはい

カネリン結構ね

うーんって感じになるから

今回抜きました

カネリンラグの可能性

ラグの歴史ちょっとねそんなに面白くないっていうのはあるし

そうっすか

でも別に

俺の心の中では

つまんないシリーズではなかったけどね歴史

じゃあね

面白くするのはむずいっていう

パターンもあって

今回ラグの歴史年表一応まとめたんだけど

なんか

ラグ自体が新しいから

2020年にコンセプトができたぐらい

新しいんだね

新しい

でもさこれラグが出てきたから

なんか最近すごいことになってる

わけなの?

そうラグが出てきたからというか

それまでは結構

ファインチューニングって呼ばれる手法

なんか出てきたなこないだ

なんだっけそれ

なんだけどさ店員学習とかファインチューニングって

結局ファインチューニングは学習なのよ

学習はい

学習なんだけど

先っちょだけ学習みたいな

なんかちょっとあれだね

言い方ちょっとまずいね大丈夫?

大丈夫です

あのね本当に脳みその全部じゃなくて

出口だけ

のパラメーターちょっとした

出口のちょこちょこって部分だけ

学習してあげるみたいな

それでちょっと

出力をちょっと変わったりとかする

ファインチューニング

ちょっとこう

さっとチューニングするみたいな

っていうのがあって

そう

チューニングするとちょっと

回答の仕方が変わったりとか

ちょっと傾向を変えることができるの

それはもう出口の

そのパラメーターを更新してあげるんだけど

すごい大量のデータを使ってそれでも

それは学習に入る

学習もうパラメーター更新されるから

性格が変わるもう脳みそが変わる

一部だけど

なんだけどめちゃくちゃデータがいるし時間もかかるし

その出口だけ先っちょだけなんだけど

すげー大量の時間がかかる

割に知識与えられないの

あんまり

ちょっと語彙が変わったりとか

性格が変わったりするんだけど

なかなかこの知識をバーンって与えるのは難しい

だから

じゃあどうしようかって思った時に

ラグ

カンペを参照させるっていうやり方をすることで

LLMにまたかも学習したかのような

自分たちの独自データを

回答させることができると

まさにみんな学習学習って

言っちゃうぐらい

同じことだもんね分かんないと

そう同じことだし

しかもこれが結構クリティカルで役に立つのね

やっぱみんなさ自分の会社の中とか

サービスの中で使いたいじゃん

LLM

チャットGPTのままだったらそれチャットGPTじゃん

ってなるじゃん

チャットGPT聞いてくれってなるんだけど

うち独自のデータを持った

チャットGPTとか

そういうサービスが作れて

それを製品の中に組み込めると

それ比較的コストが安く

できる

それめちゃめちゃなんか

行政とかに導入してほしいんですけど

導入してるんじゃないかな

なんか行政が出してる

出してるのかな

でもそのチャットボットみたいなやつ

基本的にはもうラグが後ろで組まれてる

そういうのに使ってんだ

それはみんなラグが後ろで走ってる

走ってる

だからそのなんかどういうデータ

入ってんだろうって言って

この前ちょっとチラッと話したけど

プロンプトインジェクション

プロンプトインジェクションはい

悪いそのさ

盗み取る感じの

盗み取るとしてラグの中どういうデータ入ってるのかなって

インジェクション攻撃っていうのができるよね

最近はもうなかなかそんなの聞かないんだけど

ラグの中身を盗みに行くインジェクション

そう

ラグの中身とかどういう情報が入ってるのかっていうのを

ばんばん抜いていこうみたいな

社内データ抜かれる系の

そうそう

そういうことも結局できちゃうからやろうと思ったら

そこはやっぱそのインジェクション対策

っていうのがすごくいるんだけど

ボタン一つで

ガードレールが

敷かれるやつがあるんだっけなんか

よく覚えてるやっぱすごいね

ちゃんとそうそう

あのOpenAIのね

OpenAIのやつだっけ

みたいなやつ最近出たんだけど

ボタンポチでいけるってのはね

そうそう結局だってね

守ってあげないとラグの中のデータを

いい感じで検索させて

どんどん出されちゃうとさ何が入ってるか

分かっちゃうから

っていうのはあるっていうのはあるけど

そういう対策をしながらちゃんとチャットボットとして

使う

それささっき出てきたさ

カネリンラグみたいなやつって作れるの

作れるよカネリンのプロフィールがあれば

自分全情報入れといてさ

これ使って自分のことをあれしてみたいな

できちゃう

できると思うカネリンラグは

結構その

精度はあんまり気にしない

のであれば結構

ラグって簡単に組めるから

今度なんかラグ組む会やる

やりたいね

あのさなんかさもうちょっとさ

時間もあれなんだけどさ

ちょっといい?

このカネリンラグの

イメージでさ

いつも考えてることがさ

こうやって音声で

発信してるとさ

自分の考えてることとかもやたらと

残ってんじゃん

音声とかテキストで

そういうのいっぱいあったらさ

AIに学習させて

これ学習なのか分かんないけど

学習させて

クローンカネリンみたいなの

作れるんじゃねえかみたいなSFの

なんだけどさ俺さ

それどうなんすか

このカネリンを

作ることは

できると思うけどそれは多分学習じゃなくて参照になると思う

参照ね

だからそのカネリンのデータを渡して

それを演じさせる

ラグの機能と活用

カネリンラグってこと?

そうカネリンラグから

カネリンラグの中には僕が今まで2000回くらい

放送してきた中身が全部入ってるみたいな

全部入っていて

例えばカネリン様これを教えてください

みたいなさ信者が来るとするじゃない

その質問に対しては

カネリンがこの2000回くらい配信してきた

ここを

この回答がこの信者に合うぜ

ってラグが持ってきて

カネリン風の口調で回答してくれる

じゃあやっぱこう

しゃべり散らかしてるのはそういうのに使えるんだね

そういうのに使える

なるほど

ただやっぱそのカネリンのさやっぱ

特徴というかそのやっぱ

レスポンスの速さはあると思うんだけど

なんかねラグの欠点として

レイテンシーって言ってさ

時間かかるんだ結構検索しに行くから

検索してる時間が

かかるってことか

そうだからデータいっぱいカネリンが持ってるんだけど

カネリンAIなんだけど

カネリンよりなんかトロ臭いな

みたいな回答性な

みたいなのはあると思う

数分待ってみたいな感じ

数分待ってみたいな

なんかちょっと出てくるみたいな

それって現時点で作れるの?

作れるよ作れるってカネリンラグ

カネリンラグ

今まで話してきたものの

データと

それの文字起こししたものがあれば

作れると思う

ただそのどのくらいの分量によるか

だけど別に普通に

組めると思うよ

ちょっとやってみたいね

それ結構いいと思うだから文章が多ければ

多いほどコストはかかるけどね

ラグ組むときもチャンク分けするのにも

なんか芸能人とか有名人系の人とか

ってさ死ぬほど

本もあって死ぬほど文章出てる人は

そういう人も

ラグにぶち込むってこと?

そうだね実際やってるのはそういうことだと思う

やってるよねなんかこの人をAI化しましたみたいな

あるよね

あれも後ろでそういうデータを持っていって

その人が言いそうなこととか今まで言ったことの中で

それっぽいことを

参照して言わせてる

学習

ではないその参照やね

官兵

なんて言うんだろう

影武者みたいな

うん官兵を携えた影武者

影武者みたいな感じだね

それはね別にできると思う

なんかプチ

カネリーAI作ってもいいけどね

ちょっとやってみたいななんか

それを例えば他のさ

音声生成とかに合わせてカネリーの声で

喋れるようになるとめっちゃAIっぽいよね

ちょっと未来感あるね

そういうのあるよね最近その

なんかやってる人いるよね

やってみたいなって思ってるんだけど

それはねたぶん作れるとは思う

音声生成のほう

実践編が欲しいね

最近ちょこちょこそういう話してるよね

実践編やろうかみたいな

そうそう実践編ねぜひ

どういう風に番組にするかは

ちょっと覚えておかなきゃいけない

実装って別に喋るもんないからさ

そうだ作ってみたやつを

ちょっと

やってみて触ってみるみたいな

ちょっとこういうのを作ってみようって

いいじゃんディアゴスティン的な感じでさ

ちょっと今日はこれ作ってきましたみたいな

でこれ使えるように

リンクどうぞみたいな

来週今日はここまで作ってきたんで

こんな感じですっていうのでやって

来週はちょっと声の部分

カネリンのカネリンボイスの部分を

ちょっと設計しましょうみたいな

AIエージェントの台頭

ちょっとずつできていくみたいな

支部長もめっちゃデータあるから

AI支部長とAIカネリンみたいな感じで

その二つあったらさ

落ち着きAI

それでも勝手に喋ってるみたいな

落ち着かないAI始まりますみたいな

それ完全にあれだね

お互いのね

AIを作ってもうエージェント化してさ

勝手に話してもらって

面白いかも

それで番組成り立ったら

成り立つのかなちょっと面白そうだね

未来感あるねその

未来感ある

スピンオフ版みたいな

そう結局さ

このままの流れで本編戻るんだけどさ

AIエージェントの話

したんだけど

エージェントって今ちらっと言ったけどさ

結局そのラグが最近

話題にならなかった

オワコンだって言われてる一つにさ

エージェントの流行があるのよね

エージェント

AIエージェント

自律的にこう道具をいろいろ使ったりして

いろんなサービスを自分で使えちゃうし

そう目的を理解して自ら行動できる

AIみたいな文脈で

AIエージェントって言われてるんだけど

結局AIエージェントめっちゃ流行ってます

AIエージェントの中に

ラグを使うっていう機能が

内部的に統合されてるのよね

なるほど

だからもうラグが

AIエージェントに埋め込まれてるから

最近あんまりラグラグ言われなくなった

エージェントの文脈に飲み込まれてるのね

じゃああれだね当たり前になってきて

いちいちラグ使ってますみたいな感じには

ならなくなってるってことだよね

そうならなくなってるから

ラグオワコンっていうのは

間違ってて

逆に昇格したわけだね

そうもうエージェントの中の

一パースとして吸収されたみたいな感じ

そのうちエージェントっていうのも

言わなくなるんじゃないの

ねなんか多分エージェントも

どういう

扱いになるのか分かんないけど

だんだん違うものに統合されていって

どんどんどんどんAIの概念が

大きくなってきそうな気がするよね

全部一口にAIとか

生成AIでまとめちゃいそうだよね

そうそうそうなんかそんな感じがするよね

なんか大きい括りになっていくみたいな

そうね

なんかそのNFTとかの流行ってた時期にも

よくそういうこと言われててさ

今はなんか珍しいから

NFTを使った何々とか言ってるけどさ

本来そういうものじゃないよねみたいな

そう本当にそうよね

このチケットはNFT使ってますとか

そんな技術的なの売りにならないはずなのに

確かに

めっちゃ見るなそれね

こんな技術を使ってます

が売りになっちゃってたから

実装されたらそんなこと誰も気にしなくなるんだろうな

っていうのと似てるかなって思った

ああまさにそうだね

ラグってもういちいちラグ使ってます

学習と参照の重要性

っていう話ではなくて

もう当たり前に使われるようなものになったから

星の数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

かねりん

サマリー

目次

星の数

コメント

こちらもおすすめ