162. RAG vs.コンテキストサーチ！？AI検索の最前線とプロダクトに落とすのに最適なポイント

AIによるエピソード検索の可能性

どうやってエピソードを検索していくかみたいな、例えばブラックホールの話題ってなったときに、

タイトルだけでも見れるし、話してる内容を見て、30個とか50個とかついてるアノテーションを探しに行って、ブラックホールのエピソードを探すとか、

の、いうデータを構えておくのがいいのかなと思ってるんだよね。

ハッシュタグなんちゃらみたいな感じで、このエピソードはこういうジャンルの話をしてるよっていうことを、

AIを使ってタグ付けするってことか。

あ、そうそうそうそう。

技術的には全然できると思うし。

こないだ送ったソースコードと、あの書き起こしのGitHubの中にも、アノテーションも全部入れてるんだけど。

そうですよね。お互い今、開発をして、好き勝手やってたじゃないですか。

ロッチはロッチのリポジトリでコードを作っていて、自分は自分で作っていて、

それぞれ何を作ってたんだろうっていうのを、

フロードかGPTか使って、リポジトリの分析させて比較表を作ったんですね。

そしたら面白いことに、それぞれの気にしてるポイントが全然違くて、

あ、そう。

ロッチはアノテーションとか要約とかタグ付けをするみたいなところの機能を作ってたり、

固有名詞の抽出とか多分やろうとしてたんじゃないかな。

宇宙話のだからね。

そうですよね。確かに星の名前とかそういう結構難しい、固有名詞使ったりすると思うんで、

そういうところを結構気にして機能開発してるなーっていうのがあって。

一方、自分は文字起こししたエピソードの意味とかを、

エクトロ空間に置いて、グラフDBみたいなのを作っていくところを、

これやっといた方がいいんじゃないかなと思ってたんで、

そういうセマンティック検索みたいな、検索をいかにやっていくかっていうところの開発をしてたり、

あとはUIを簡単なものなんですけど組んでたりとかして、

全くこの領域が違うところをやってたんで、

ガッチャンコするといいものできそうだなーっていうのが今思ってるところではあるんですよね。

ベクトル空間へのマッピングと検索性の比較

確かにね。

それさ、検索しやすいようにグラフ化するみたいなのってさ、

エピソードの中身をグラフとかに落としてるみたいなイメージ?

そうです。今はエピソードの中身を、エピソードのワンセンテンスとかみたいなところを、

そのセンテンスごとに、何百次元とかのエクトロ空間にエクトロ化して配置するみたいなことをしてるかな。

はいはい。なんかその途中で話したみたいな感じの、そのLLMのとかAIエージェントの検索性の高さ上がってきてる状態で、

どの形が正解なのかは、まあ手探りでいいと思ってる中で、

そのベクトル空間に落とすのって、今のAIの性能が必要なんかなって思ってて。

俺はその、より多分ハイエンドのAIエージェントとかそういうのを触る機会が増えてるから、

なんかヒントになるものをたくさん置いてある中で、全体見てAIにそれっぽい文脈の部分を測定させるみたいな方が、なんとなく筋がいいかなと思ってて。

そこのなんか、めっちゃ細かいベクトル空間に落とすみたいな工夫で、そのAIが検索しやすいようにするっていう言葉を体現するのに、今そこまで必要なんかなって思ってるというか。

それは一定あると思っていて、多分この話ってデータの量と質、あとはコストみたいないくつかの観点での比較になると思うんですよね。

まあそうね。

膨大な量をAIエージェントが検索できるかって言われると、コンテキストのウィンドウとかがあるから、限界は一定あると。

そうね、そうね。

そういう場合は検索しやすいようにデータ加工するっていう方法もあるが、いいんじゃないかっていうのは言われている。

一方である程度絞られている検索範囲みたいな、探索範囲が絞られているのであれば、そうAIがその領域を絞った上で、ざっとエージェンティックサーチみたいなことができるから、それで見つけられるんじゃないかっていう話があって。

どれくらいの精度でどういう情報を検索させたいのかみたいなところでベクトル空間に落とすのか、そのままの自然言語、文章のままでデータを置いておくのかっていうのを決めるがいいんじゃないかなと。

あーなるほどね。

いうことなんじゃないかな。

エピソード類似度と情報量のトレードオフ

多分そこの具体のボリュームとかデータのサイズっていうのはこれっていう数値が出てるのかな、もしかしたらそこを検証してる論文とかあるかもしれないですけど。

確かに確かに。

なんかエピソードの類似度がわかるようなベクトル空間への落とし込みみたいなのはあってもいいかなって思ってたんだよね。

それをエピソードの中で、中の固有の空間としてそれぞれ持つのか、番組全体で1空間の中にその一つ一つの文章全部をそのベクトル空間に落としていくのか。

でなんか今の校舎はさすがにごちゃつきすぎる気がしていて、番組全体で持ってるベクトル空間の中にエピソードの中身の内容によって決まる空間の座標みたいなのが決まるみたいな感じであればイメージつくというか。

そうするとこのエピソードとこのエピソードが似てるっていうのが最もハイコンテキストな状態でマッピングされるじゃん。

はい。

でそれまでって俺がやってたみたいに番組固有番組それぞれをとにかくアノテーションしまくる。

うんうん。

やってそのタグによってエピソードを分類していってエピソードの類似度はそのタグによって決めていくみたいな。

うんうん。

そのタグをめっちゃ膨大にしていいっていうイメージを持ってたのは、そのなんかその細かいベクトル空間の中でいうとこの細かい座標まで決められる要素をいっぱい増やしたいなみたいなイメージというかやってるし、

これ人間がつけてたら無限につけれないし、人間が目で検索してたらいっぱいあっても雑念になるから欲しくないし、

で、でかいプラットフォームになるとそのアノテーションが増えていくとなんかノイジーになるから多分ツイッターとかなんかインスタとかも5個とかぐらいまで複数、数個のハッシュタグまでしか有効じゃないみたいに言われるというかみたいなのがあるから独自性ってそこに出てくるのかなとか思ってたんだよね。

なるほどね。

なんかそうですね、今の話聞いて、あと今回のユースケースとしては、なんかどこのエピソードのタイムスタンプのここでこういう話したまで欲しいのかなみたいな、必要なのであればエピソードの中のさらに分析みたいなところも必要なんだけど、そこまで必要じゃないのであればエピソード単位で、

いやでも確かにな、そう言われるとそのぐらいまで欲しいかもね。フルフルでやるならエピソードの中身もベクトルに落とすとかしてやるし。

番組のエピソード全部で1個の空間に落としたら意外と使い物になるのかな。このベクトルの方向ってこういう話してるよねっていうのがあって、そこがなんかヒートマップ的に見るとめちゃめちゃ熱いみたいな。

うん。

その話をしてるエピソードはどこなのかとか、それと一緒にどんなトピックが話されてるかっていう検索に広がっていけるじゃん。

うんうんうん。

そこまでそれができると、なんかそのマップ全体で例えば熱いところをピックアップしてったら、本でいうとこの焦だてとかになるのかな。

なんかこの番組って200回更新してるけど、すげー繰り返しこの主張してるなっていう、ベクトルに落とすとそうなる。

ベクトルが一生コサイン類似度の世界で生きることにもなるから、AIらしさみたいなのって本当に生きるのかなみたいな。

プレーンなデータ形式とAIによる情報抽出

じゃあベクトルで持たない方がいいんじゃないかってことも考え始めますよね。

そうそうそうそうそうそう。だからベクトルにするってある種ちょっと詩意的なデータの持ち方になるんじゃないかなってちょっと思ってて、

それだったらLLMこれからどんどん進化していくし、一旦なるべくプレーンな状態でコンテキストサーチに重きを置いたデータの持ち方で、

とにかくLLMが検索しやすいのってどういう形なんだろうを最初にデータベースあんま固めないで模索する方がいいのかなみたいな。

確かにそれはそうかもしれないな。なんかベクトルに落とすってことは100ある情報を50にするみたいな感じ。

時限を小さくするから情報としては落ちていく方向になるんで。

そうなんだよね。

途中話していた感情が動いたとかっていうところの情報って落ちやすくなるはずで。

そう思ってたんだよね。で、それって今あるいろんな書き起こしのサービスにも共通してて、あれって極端に情報量を落として文章化してるじゃん。

そうですね。

あれができて何なのっていう。俺は1ミリも嬉しくないというか。

宇宙話でそれがあるから連載がはかどることって多分ほぼなくて、あのエピソードって何話してたっけって見に行くみたいな。

それだったらチャットと喋った時にそれが一気に振り返れて、何だろう同じ主張してるエピソードまで検索、AIと対話しながら調べて、

その2つ合わせてどんなトピックのストーリーにできるかをAIと対話しながらできたら最高だなって思うし。

そう考えたら、話していく中での意思決定の流れとか、文脈みたいなところをしっかり拾えるようなデータの持ち方だったり、アノテーションをさせていく方が重要ですね。

そうねそうね。

面白いな。

AI開発におけるコストとサービス化の課題

そういう何を作りたいかっていう背景みたいなところをしっかり聞いていかないと、技術というかどういう作り方をするかって選びにくいんで。

いいですね、こういう晴れなしができるのは。

でなんか、俺送ったやつとかでさ、書き起こしのローとクリーンと、なんかもう1個あったじゃん。

3段階で作ってたのは、情報の流度にグラデーションをつけて、どこで読みに行くのが正解なんかなみたいなのを実験してる途中だったんだよね。

なるほどね。

なるべくローにしていきたいのよ。AIに頼りまくってる、信じきってるからこそローなんだけど。

ローと丸め込まれたサマリーぐらいの書き起こしからできた記事というか、物を両方持っていくのが一番AIでの検索にいいのかなとか、それにプラス無限のラベリングみたいな。

本当はローとクリーンとレビューかな、あとアノテーションがあるね。

そうそうそう、かなみたいなイメージ。できればそのレビューとか、レビューとかは確か結構形になってるようなのにした気がするんだけど、

もう1段形になるのを作ろうかなと思ってたんだけど、なんかレビューのところからローに対応してるところのなんかID付けとかできたら読みやすいのかなとか、

トレーサビリティみたいな、どこの発言でこれを書いてるよみたいなのがあると追いやすくなるよなみたいな。

これって人間の手でやってたとき絶対できないけど、AIは読みやすい形だよなっていう感覚はあって。

そうですね、確かに。

アノテーションめっちゃつけるとかもそうなんだけど、これがなんとなくAIでのコーディングからインスピレーションを受けてる感じはある。

単体テストとかをAIとのコーディングで達成できるのって、めちゃめちゃエッジケースまで含めたテスト設計を実現できるっていうのは結構メリットだと思って。

手で打ってたら主要なものしか作らないじゃん、けど全体を舐めた上でここまでカバーできてる方がいいよみたいな仕様書的に言うとみたいな。

っていうエッジケースの銃箱の隅をつついたようなものまでカバーしてることでよりクオリティが担保されるみたいなのもあると思ってて。

これってラベリング、人でやったらとかいろんな負荷とか考えたらめっちゃ細かく見ないんだけど、本来はAIだから細かく見てもいいんじゃないかとか。

AIがやるからラベルをいっぱいつけられる。

なんか以前その話しましたもんね、その評価指標を削ってるのってなんでなんだっけみたいな。人間がそこまでしか見れないからなんじゃないかっていう。

そうそうそうそう。

AIを使えば無限のメトリクスの管理ができるじゃないかみたいな、そういう話に近いですよね。

そうそうそうそう。

納得感はめっちゃある。ただちょっとこれ現実的なことを考えていくと、これトレードオフだと思うんですよ。

AI活用における費用負担とプラットフォーム化

いかに早く作るかっていうところと、質を上げるかっていう話と、あともう一個コストこれめっちゃかかりそうだなっていうのが少し怖い。

そのAIを使って探索というか、とりあえずエピソードすべての文章をAIに渡して吐き出させてみたいなことを何回もやっていくという風になるとかなりトークンを消費するようなと思っていて。

なんかこうシステムを作っていくなら、ある程度プログラム的に動く部分も組み込まなきゃいけないんじゃないかなというふうに思うんですよね。

AIがぐるぐる動きすぎてて、コストいくらかかるんだろうっていうのが怖いから。

確かに。

これは追々ではいいと思うんですけど。

少数の間は大丈夫な気はしてて、だからAIの費用をどっち持ちにするかっていう話が出てくるよね。

そのDBだけにするんだったら、チャットGPTとジミニとコストシミュレーションみたいなのしたけど、そんなかかんないんだよね。

データベースだとそうか。

あと書き起こしも優手。これ多分いろんなところで課題になってるから、GPTプラスでお前の金はお前で払えスタイルのサービス設計できるの知ってる?

お前の金はお前で払え。

例えばAI系のサービスがあって、そのAIサービスをデモンストレーションで動かしたいみたいな需要があったときに、

GPTプラスでログインしたら、試運転したときに消費されるトークンはそのログインしたユーザー側のトークンが消費されるみたいな。

っていうサービスの立て付けも今後は多分割とスタンダードになるからできる気もしてて、そうするとこっちの管理コストを下げるみたいな。

確かに確かに。ログインIDパスワードがもうChatGPTのiPathを使うっていう設計にすればいいだけですもんね。

そうしたらUIは一旦ChatGPT、マスそのも広いし、一旦GPTにしましょうみたいなこともできるっていう抑え方もあるなと思った。

面白いそれは。そうなってくると、ウィスパーを使おうぜとかっていう書き起こしのモデル選定もある程度固められたりしますね。

そうそうそうそう、みたいなね。なんかどっちかっていうと、それに引っ張られて情報量を減らすぐらいだったら、

持ち分変えてリッチな情報を持ってた方がいいっていう世界の方が今後の世界には正しいんじゃないかなっていう気もする。

それがいいと思うな。

これってポッドキャストがちでやってお金を稼ぐ人のために、お金を稼ぐ売り上げを上げるっていう人のために作ってるから、必要経費は払わせるっていうスタイルでいいと思ってて。

なるほどね。

2C向けじゃない、2B向けのポッドキャストサービスみたいな感じだから。

そうだね。

っていうようなイメージでね。

AI開発のスピードとサービス化のハードル

喋ったなあ。

途中すごい細かいとこ話してましたよね。

まあいいんじゃない。こういうことよって。しばらくもうこんな話ばっかしてエピソードが進んでくんじゃない。

どれくらい聞かれるかちょっと楽しみですね。

確かに。これで落ちたらやめよう。

そうしましょう。

まあでもテスター募集とかもしていきたいなと思うからね。

これを聞いてくれてる企業の方とのコラボレーションみたいな。一定無償期間で作るんだよね。

あとまくられるってこのセバの大日であるという。

そうそうそうそう。

視聴者さんが、小赤の人たちが自分たちの話聞いて、アイディアだけもらって作ってしまうっていう。

この高い画像の一番のポイントは、俺がいるっていう。宇宙話がいるっていうのがね、ポイントですね。

すごいスピードでやってくる人も中にいるかもしれない。

いるいるいる。

そしたら一緒に作ってくださいっていう感じで。

本当にそう。俺なんかバタバタしながらコーデックスにちょろっとやらせてるだけで形になってるんだからね。

エピソードが公開されたくらいにもう次の日に出来上がってる可能性もありますからね。

確かに全然ある。

こういうのはプラットフォーム化するっていうところと、人に触ってもらうとかって形にするとかのところの、

最後の爪の部分が結局は一番のネックになるというか、一番時間かかるし、

サース・イズ・デッド、マジだよねとか言ってるやつみたいな感じ。

それっぽいものは作れるんだけど、

それっぽいものを作った後にサービス化するっていうところのハードルの高さというか。

現場に出てこいよって話ですよね。

そうそうそうそう。

今後の展望と育休明けの報告

そこの部分はとりあえず一時頑張ってもらって。

頑張りましょう。

そんな感じで。

次回はまたわからないんで。

次回はこれの続きかもしれないし、

AI関連のニュースをベースにした雑談かもしれないし。

そうですね。また私が仕事復帰するってところで初心表明してるかもしれない。

そうだそうだ。そういう回はあってもいいかもしれない。

そうですね。ようやく育休が終わるんで。

7ヶ月、8ヶ月の育休終わりだ。

果たして社会で通用するのかっていう。

そんな話もできれば。

いいっす。

番組告知

じゃあ終わりますか。

隣のデータ分析屋さん、今回も面白いと思ったらフォローレビューよろしくお願いします。

番組の感想や質問は、

ハッシュタグ隣の分析屋、隣のがひながらで、

分析屋は漢字でお願いします。

また概要欄に貼ってあるお手紙ホームからコメントしてください。

ではまた。

バイバイ。

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ

162. RAG vs.コンテキストサーチ ！？AI検索の最前線とプロダクトに落とすのに最適なポイント

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ

162. RAG vs.コンテキストサーチ！？AI検索の最前線とプロダクトに落とすのに最適なポイント