1. AI Engineering Now
  2. #6: RAG and Beyond 〜4つのレ..
2024-10-24 35:59

#6: RAG and Beyond 〜4つのレベルで理解するRAGとその先〜

今回はMicrosoftが公開したRAGタスクを4つのレベルに分類したリサーチであるRAG and Beyondがテーマです


ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠⁠⁠https://listen.style/p/aiengineeringnow


Shownotes:
https://arxiv.org/abs/2409.14924
https://x.com/K_Ishi_AI/status/1838765135206453254




出演者:
seya(https://x.com/sekikazu01)
kagaya(https://x.com/ry0_kaga)


サマリー

このエピソードでは、RAGとその応用について、マイクロソフトが発表したレベル分けの論文を基に、実運用の観点と技術的課題を探ります。特に、RAGの4つのレベルと、それぞれの特性や応用例について詳しく解説されています。また、RAGの4つのレベルについての理解が深められ、特にレベル3とレベル4の違いやそれぞれの特性についても語られています。さらに、外部データを利用した高度な推論について考察され、レベル感に基づくテクニックの必要性にも触れられています。RAG(Retriever-Augmented Generation)の4つのレベルを探り、それをどのように実践に活かすかを考察する内容も含まれています。そして、レベル3とレベル4における特定のドメイン固有の根拠や評価プロセスの難しさについても語られています。

RAGの概要と重要性
AI Engineering Nowエンジニアの香谷です。 ソフトウェアエンジニアからLM開院に足を踏み入れた
瀬谷と香谷が、精々LM関連の論文やニュースを題材に 話をするポッドキャストです。
本日のテーマは、マイクロソフトが公開した、 RAGタスクを4つのレベルに分類したサーベイの
RAG and Beyondを取り上げてみようかなと思います。 かなりそもそもみたいな話なんですが、
瀬谷さん、業務でRAGとかって結構やられてますと。
結果と言われると微妙なところなんですけど、 RAGはやってて、
RagあるベクターDBをやるもので言うと、 ちょっと弊社がキャラ物のAIを作るみたいなものをやってるんですけど、
そこで記憶とかを会話のコンテキストに応じて 引っ張ってくるみたいなものをRAGでやってたりしますね。
それ引っ張ってくるってことか、 ベクターDB使ってるんですね。
そうですね。
なるほど。ちなみに僕は業務では いわゆる競技のRAGじゃないですけど、
もともとメタが多分、当時はFacebookかな、 言及となる論文を出したと理解していますが、
ベクター検索を使ったRAG自体とかは、 正直プロダクションみたいなところでは出してはないんですが、
本業以外とかでちょこちょこ最近この辺のRAGだったりとか、
ここの論文で話しているレベル分けの、 特にレベル高いほうのRAGの定義ですね。
そことかは個人的にめちゃくちゃ作りたいものリスト上位なので、 その辺が気になって今回は取り上げてみましたと。
ざっくり概要説明をすると、 正式なタイトルはRAG & Beyond
Comprehensive Survey How to Make LMS Use External Data More Wisely っていうところで、
要するにLMに外部データをより賢く利用させる方法 っていう感じのサーベインみたいな感じになってますね。
RAG & Beyondっていうような、 RAGの超えていくっぽいようなタイトルとか、
かっこいいタイトルが書いてるサーベイ論文になりますと、
基本的にはLMが外部データを利用する方法、 RAGとかファインチューニングとかインコンテクストラーニングとか、
その辺りとかをざっくりまとめつつ、 そういうアプリケーション特有の課題とか、
最新技術とか、あとは特にユーザーの問い合わせとか、 RAGの中でもどういう問い合わせ、クエリを処理するかを元にレベル分けして、
それごとにざっくりこういうような手法を使われるよね、 みたいなのを書いてるような論文ですね。
RAGのレベル分け
分類されている4つのレベルっていうのが、 詳細はまた後で話しますが、
レベル1から明示的な事実問い合わせ、暗黙的な事実問い合わせ、 解釈可能な根拠問い合わせ、隠れた根拠問い合わせ、
こんな感じのレベルになってます。
スヤさん、これ今レベルの話聞いて、 なんとなくイメージ湧きますか?
なんとなく明示的暗黙的は、 明示的な事実はもう書いてあることそのまま取ってくるんだろうなみたいなので、
暗黙的なのがニュアンスとか結構汲み取ってみたいな感じで、
解釈可能とか隠れたこのレベル3と4から、 もう少し具体的な内容を見てみないとわかんないかもなみたいな感覚ですね。
そうですよね。
イメージ的には段階的にレベルって言ってるから、 レベル上がっていくごとにも難しくなっていくし、
そういう使い方ができると精度も上がりやすいみたいなイメージなんですかね。
そうですね。3、4とか結構悩ましい気がしますが、
基本的にはレベルが上がっていくほど、 より高度なことだったりとか難易度が上がるイメージです。
それのいわゆるラグシステムがこれ全部上あげなきゃいけないかっていうとそうではなくて、
結局どのレベルのどういう問い合わせを処理できなきゃいけないんだっけによっては変わり得るものだと思うので、
究極的にここではレベル2だけできればいいよねっていうようなこともあり得るだと理解してますね。
そんな感じで、さっきレベルのところレベル3、4あたりとかはピンとこないっていう話でしたが、
その前にLMにライブデータを組み込ませればいいのか、課題みたいなところとかざっくり論文に書かれたことを触れておくと、
本当にさらっと話すと、いわゆるそもそもデータ処理の困難か、外部データで特にマルチモーダルだったりだったりとか、
よくある例とか多分テーブルとかExcelになってるとか、構造化されてない場合処理大変だよねとか、
前回のエピソードで話した長文テキストの場合のチャンキングみたいなところのそういうところ大変ですよねだったりとか、
そもそも適切な検索データ引っ張ってくるところ。
ラグで言うと結構なんとなく目的にベクトル検索でとかチャットボットで返答するみたいな、
検索と生成がセットになって検索がベクトルでみたいなところとかが結構固定化されたイメージになってるかなと思うんですが、
ベクトルに限らなくたとしても適切な情報を適切に取ってくるっていう検索のところってかなり奥が深い領域ではあるので、
そこかなり難しいですよねって話だったりとか、あと評価だったりとか、
あと推論と検索の連携みたいなところの難しさって話が出ていて、
結構いわゆるエージェンティックワークフローみたいなとかフローエンジニアリングのような、
複数のプロセスだったりとかイテレーティブに処理していくっていうのって結構少しずつ浸透してきたかなと思っているんですが、
同じようにイテレーティブラグって呼んでるような、
ラグ自体も複数ステップ挟んだりとか正しい回答に到達するまでに情報収集するところだったりとか、
計画じゃ作るとしたらプランニング挟むだったりとか、
そういうようなインテレーティブなラグっていうのをやろうとすると、
さっきの推論のところだったりとか検索のところだったりとか、
そこをうまく組み合わせながら作らなきゃいけないっていうところに難しさがあるよねって話だったりとか、
最近で言うとグラフラグですよね、ナレージグラフだったりとかツリー構造みたいな話だったりとか、
ちょっとそういうようなタイプのものが出てきて、
その辺りを組み合わせたりするところ、組み合わせる必要があるっていうところとかで、
LMに外部データを組み込むっていう意味で課題ありますよねっていう話とかもしてます。
レベルのところで言うと、レベルの具体的な話をすると、
まずレベル1は結構的な事実に関する経理、直接的な事実について聞かれる。
例えば、2024年の夏のオリンピックの開催地はどこっていう質問ですね。
こうやって直球で、ここのクエリに対する知識があったら回答できるし、
このユーザーのクエリをそのままバラして検索と言いますか、
データ知識を引っ張ってこれれば回答できるっていうようなクエリですね。
これが一応レベル1に該当する。
基本的に外部データは使うことになるが、
明示的な事実について質問することになり、
推論自体は使わない。
推論プロセスというのは挟まなくても基本的には対応可能なことが多い。
それがレベル1です。
レベル2は暗黙的な事実に関するクエリ。
暗黙的な事実を組み合わせて推論して回答しなきゃいけないっていうニュアンスのものになっていて、
特徴としてはレベル1と比較すると、
複数の事実とか組み合わせたり推論するっていうのがプロセスとして。
クエリの例で言うと、
キャンベラがある国の現在の与党は?っていう質問。
これって分解すると、そもそもキャンベラがある国ってどこっていう話と、
現在の与党はどこっていうところ。
ここをもう少し推論だったりとか、
引っ張ってきて、組み合わせて回答するっていうことをやらないと答えが出せないっていうところ。
なのでレベル1と比べると直接的にはそんなに明白なクエリではなくて、
割と一般的な推論とか、論理的論能力みたいなのを組み合わせたりとか、
複数の情報とかを組み合わせて、最終的に何か取りに行かなきゃいけないっていうことですね。
そういうことをやらないと答えられませんよっていうのがレベル2ですと。
レベル3が解釈、ドメイン固有の明示的な根拠や手順を理解した上で回答するみたいな、
解釈可能な根拠クエリとか呼ばれていましたが、
レベル3とレベル4の複雑さ
これはさっきのキャンベラがある国の現在の意図っていうような、
これも政治みたいなドメインにもしかしたら該当できるのかもしれないですが、
めちゃくちゃ何か特殊なドメイン知識が必要とされるっていうよりかは、
比較的一般的な知識に近しいようなものだったりとか、手順とかって概念とかはないですが、
レベル3とかになるとドメインとかの何かしらの根拠だったりとか、
手順の理解がないと回答できないようなクエリのことをレベル3と呼んでいますと。
例えば例としては〇〇の症状を持つ診断手順はっていう、
医療のドメインに関するところだったりとか、診断の手順だったりとか、
そういうところを理解して回答しないといけないような質問ですね。
ここまで来ると、これも大規模言語モデルの事前学習の段階とかでは、
そもそも学習データとして存在しないことが多かったりするので、
適切な医療だったりとか法律だったりとか、みたいなところの根拠となる情報を元に、
さらにもう少し複雑に何か組み合わせて回答するみたいなところが必要なのがレベル3ですね。
レベル3とかぐらいから結構多分ラグっぽいイメージがより出てくるというか、
いわゆるプロダクトになっているラグとかは結構このレベルのところとかが今は多いんじゃないかなと思っていて、
最近も確かローム周りの質問に対して回答できるみたいなサービスが試験調査としてて、
それとかは恐らくこのレベル3とかに該当するラグとみなせるんだろうなと思っています。
最後のレベル4は暗黙的な根拠と言いますか、
隠れた根拠クエリとか暗黙的な根拠を推論して適用するっていうものになっていて、
簡単に言うと経済状況が会社の将来の発展に与える影響は何かみたいな。
そもそも回答するのは難しいし、調べたときにここに対する回答があるか分からないが、
いろいろ推定してそれっぽいことを回答しなきゃいけないっていうような結構難しい問いのタスクですね。
根拠も多分そのまま文書化されてないことが多いですし、
いろんな過去の推論、過去のパターンだったりとか推論結果みたいなところから、
未来を予測するような答えを書くみたいなことをしなきゃいけないので、
ここはかなり推論とかかなり複雑に作らなきゃいけなくて、
このレベル間のサービスとかはまだない。
パワプリシティとかジェーンスパークとかは近いっちゃ近いというか、
もう少し進化したら、聞いたら回答はするはするので、近しいかもしれないですけど。
わけでレベル3、レベル4はそんな感じですね。
これレベル2とレベル3の違いが、
これドメイン固有の複雑な知識を前提とするかどうかっていう、
その点だけになるんですかね。
そうですね。多分ドメインとかみたいなところとかなのかな。
多分いわゆるレベル2とかまでは、
基本は説明的には多分ドメイン固有の根拠を理解して、
そこのドメイン知識とかを踏まえて回答する能力が必要だったりとか、
みたいなところとかが一番の差分なんだろうなとは思います。
2、3結構溶け合いそうだなって感じはありますね。
めちゃくちゃ違うっていう感覚はそんなに感じなかった。
あとあれですね。レベルが上がっていくごとに、
確かにラグ&ビヨンドっていうのに合ってるかわかんないけど、
ラグだけで済んでないというか、レベル4ぐらいになると、
多段階の推論を組む、どう組むかとかそういう話になってきそうなんで、
なんかもはやラグに閉じてないなっていう感覚がきましたね。
1、2、3までは結構ラグで、結構順当に上っていくみたいなイメージで、
4までいくと回答みたいに延長線上にあるっていうのは、
結構別ベクトルのやり方な気がするというか、
作るプロダクトな気がするので、厳密にレベルっていう概念で表現するのが、
RAGのレベルとその関係性
3と4は正しいのかって言われるとまたちょっと話が違う気はしていて、
ただレベル4とかを結局達成しようとすると、
これも物によってはレベル3の何かしらのドメイン特化を理解して回答するとかが求められるんだったら、
結局レベル4は1、2、3とかの能力を土台として持っていかなきゃいけないみたいなのは成り立つのかもしれない。
ちょっとその辺とかはどうなんだろうなって感じがしますね、正直。
そうですね。分類、若干違和感がなくはないですが、
でも確かに段階こういうふうになるっていうのはすごい理解はできる感覚ですね。
そうですね。レベル1、2とかは正直そんなにそうねというか、
このレベル間のものとかをめちゃくちゃ頑張って作り込むとか、
結構いろいろと作り込まないと達成できないみたいなレベル間では、
今のLMのモデルの性能を考えるとそれほど難しいものではない、
比較的はレベル1、2とかだと思うので。
レベル3あたりとかレベル3、4あたりとかですよね。
この辺とかが外部データに、レベル3のほうがまだ外部データに明確な根拠となるような
ドキュメントがある可能性が高いが、レベル4になると多分ないことが多い。
特定の会社に対して例えばエンダカインSが将来どう影響与えるだろうかみたいなのを持って、
大きな会社であれば誰かが書いたレポートとかがヒットするとかはあるんでしょうけど、
よりなかったりとか、少なくとも真実かどうかわからないっていうようなものが多いと思うので、
そういうとこだったりとか、
多分LMの役割としてもファンのほうはちゃんとこういう意図でこういう蹴りが投げられているそうなので、
ここのドキュメントを引っ張ってこようみたいなところだったりとか、
そういうもうちょっと意図を理解するみたいなところとかの要素が強そうですが、
3の場合は多分もうちょっと本当にプランニングというか、
この問いに回答するには何の情報をどう取ってきて、
どういう根拠があれば生成できるんだっけっていう、
よりもうちょっと不確実なプランニングとか推論とかが多分求められるだろうなというイメージはしてますね。
なるほどなるほど。
まあちょっとこの認識で合ってるのかわかんないですけどね正直。
まあでもなんかそういう分け方はレベル3とレベル4のそういう分け方は割としっくりくる。
レベル4そのレベルまでいくともうなんか新しい仕事もやってくれるみたいな感じだろうから、
もうなんか信頼できる同僚みたいななんかそういうレベルになってそうだなっていう。
そうですね。レベル4はまたちょっと話が違うというか、
レベル3はめっちゃさっきの医療とかホームとかロームとかの領域でレベル3めちゃくちゃ強いダグ作りますって話と、
なんかレベル4なんでもいろんなこと回答、すげえ回答してくれますみたいなのは、
均一には結構方向は違うので、
まあやっぱレベル感が上っていくっていうのはちょっと話が違うなと思いますね。
テクニックごとの違い
確かに。
これねレベル4ってあれなんですよ、
アメリカのサービスとかでちょっとそれに近しい何でも問い投げたら本当過去の事例とかから推論して、
これがちょっと重要ファクターっぽいからこれをもみづけして、
それで調べると過去こういう傾向があるから未来もこうなるんじゃないかっていうのを推論するみたいなのをやろうとしてるところとか確かあって、
そういうのとかは結構レベル4なんだろうなと思いますね。
ちょっとレベルに関してはざっくりそんな感じ。
このレベルごとにどういうテクニックが必要なんだっけって話とかも一応まとめてくれていて、
レベル1はラグとだけ言ってますね。
基本的なラグをやりましょうっていうほんと雑な。
正しく検索ができるようにしましょうみたいな感じですよね。
普通にラグやろうよってラグだけ書いてるっていう図があるんですけど。
で、レベル2とかになるとさっきちょっと話したイテレーティブラグみたいな、
ちょっとプランニングとかシーローみたいな挟んだちょっとエージェンティックなラグのプロセスが必要ですとか、
ラグオングラフ3って論文内の書いてたんですが、
グラフラグとか結構近いと思うんですけど、
グラフ構造、ツリー構造みたいなのを使ったラグ、データ構造を使ったラグみたいな。
あとここになると結構DBの問い合わせみたいなところ、
RDBの問い合わせみたいなところとかも多分想定してるというか、
別にベクトル検索だけに限定した話をこの中では多分してないので、
テキストとSQLですね。
レベル2だとイテレーティブラグ、ラグオングラフ、テキストとSQLみたいなのが
テクニックとして挙げられて、メインテキストとして挙げられていて、
レベル3になってくるとプロンプトチューニングっていう、
ここまたちょっと緩くなったんですけど、
とかCOTコットン、チェーンオブソートとか、
もうちょっと推論とか複雑にプランニングするみたいなのが必要なので、
チェーンオブソートとかヒリオネみたいな話が書いてあるとか、
最後レベル4に関してはインコンテキストラーニングとかモデルファインチューニングとか、
また荒くなったなっていうかテクニックが。
感じがあるので、レベル3にほぼ正直あんまり整理はされてないし、
レベル1もただラグとしか言ってくれないし、
レベル2もイテレーティブラグとグラフオンラグぐらいしか言ってないので、
あんまりこのメインテクニックとかは、
一応テーマとしては取り上げましたけど、
そんなもんかぐらいでいいんじゃないかなっていう気はしてます。
たぶんレベル3、プロンプトチューニングとコットだけ書いてるけど、
レベル2のいろんなラグと組み合わせるの前提みたいな、
そういうイメージだよな、たぶん。
そうですね。それはそうだと思いますね、基本は。
そうですね。
そんな感じですか。
ちょっとここはあんまりコメントしようがないというか、
レベル4とかオフラインラーニング、インコンテキストラーニング、
モデルファインチューニングしか書いてなくて、そっかって感じですね。
やるよなって感じ。モデルチューニングは分かんないけど。
結構いろいろやらないといけないだろうな、以上って感じですね。
あと一応ドメイン知識の注入方法参戦みたいなのも書いてたんですけど、
基本的に書いてることはインコンテキストラーニングみたいな話と、
あとはスモールランゲージモデル使いますみたいな話、
特化させたいドメインデータで小規模モデル作りましょうみたいな話とか、
あとファインチューニングしましょうみたいな話が書いてありました。
こことかはほんとにさらっと、
ここもそんなにそうねみたいな感じでしかないと思うので、
ちょっとざわっと読んでみて、
やっぱレベル分けが一番目を引く論文だなって印象ではあるんですが、
このレベルのさっきの3と4で、
今は特に3と4って結構かなり目指してるものだいぶ違う感はある。
ドメイン特化とかレベル3とかはドメイン固有とか言ってるので、
ちょっとしっくりこない感は多少は感じつつも、
やっぱラグって言ってもこれぐらい結構幅だったりとか、
ばらつきみたいなのは当然サービスによって、
これからどんどんどんどん出てくるだろうなとは思って、
LMと外部データを組み合わせた何かっていう意味では、
例えばPowerPolicyとかGenSparkをそこに該当するじゃないですか。
別にインテリエティブラグっぽいことはしてるじゃないですか。
クエリ分割して取ってきて計画とか出力また統合して出してきて。
そういう意味とかでは、
ラグっていうのが結構ベクトル検索とか、
こっちからやっぱり入ってきたのでイメージそっちに引きずられますけど、
ここでいうとこはどっちかっていうと、
LMと外部データ利用して何するかみたいな話。
そこの何となくのレベル感とか方向性っていう意味とかでは、
使えるタイミングとかはありそうだなとは思いました。
レベル3とかはさっきのグラフラグとか、
結構いろいろとテクニックとか出てきている。
ラグのいろんなテクニックとかってどんどんどんどん出てきているので、
レベル3とかぐらいまでは結構多分、
割とHowとかテクニックの手法とか出てきてはいるが、
レベル4までいくとこの論文内でもいきなり
インコンテキストラーニングとか言い出したりするので、
ちょっとまだまだ先は長いが、
ビジネスへの応用と課題
OAWとかSATELLとかで作れるようになりつつあるんじゃないかなっていう気はしています。
改めて結構日本のスタートアップとかで、
ラグ系のサービスとかってちょこちょこあると思うんですけど、
レベル感としてはレベル1,2ぐらいのもの。
音者のデータを買わせてできますよみたいなものになっているとか、
もしくは最初から何かのドメイン特化したレベル3っぽいもののラグみたいなのが多いなと思っていて、
レベル4とかをいきなり目指しているというか、
それっぽいことを歌っているのはまだ少数派ではあるが、
個人的には僕が人生で作りたいものリストの結構上位にいるのがレベル4ではあるので、
僕がこのレベル4のやつをめちゃくちゃ作りたいから、
パッと見たときにレベル4いいこと言ってそうだなと思って論文をピックしたんですけど、
思っていたのとはちょっと違ったけど、
レベル分け面白かったからいいですっていう個人的な感想ですね。
そうすると僕がめちゃくちゃザーッと話しちゃいましたけど、
せやさん何か気になったこととか質問とかありました?
そうですね。レベル3のほう、さっき今話したことと近いところとして、
レベル3のほうが多分既定の既にあるドメインの中での手順とか、
既にある業務とかをうまいことやってくれる仕組みだと思うので、
こっちのほうが考えやすいというか、
レベル4のほうが、私の今の業務の範囲だと考えちゃうと、
これめっちゃ欲しいなという気持ちにそこまでならなかったので、
その辺がどうビジネスにしていくかみたいなのが、
おかしそうな印象を受けましたという感じですね。
そうですね。レベル4はまだちょっと僕も、
ちゃんとビジネスとか事業とかプロダクトにするんだったら、
結局何に使えるんだっけって言われると、
まだそんなにクリアなイメージはないかもしれないですね。
グラフラグとかもレベル3とかだと、
一応ラグオングラフみたいなのとかは研究されてますけど、
グラフとかグラフDBとかはないので。
そもそもグラフDBというもの自体を業務で使った話がないので、
正直利点をそこまで噛み砕いて理解できてるから、
自信がないですねあれは。
なんとなく響きは興味がすごい湧いてるんですけど。
グラフDBってSNSのサービスとかでは使ってるんだろうなとは思いますけど、
そんなに他の一般的なDBと比べると、
そんなに多分登場するシーン自体は限定的なDBだとは思うので。
ナレッジグラフとか、
なんかこの前ちょろっと言ってたと、
Amazonがナレッジグラフとかの構造を使って、
ユーザーの購入履歴とかから、
意図みたいなのを推察して、
検索のレコメントとかに活かしますみたいな。
それでナレッジグラフ側みたいな話とかがあった気がするので、
みたいなのとか、
専門語をよく伝えるとか、
前後の文脈をちゃんと捉えられるみたいなところがあったりとかで、
一定良さはあるんだろうなと思いつつ、
僕もちゃんとガッツリ使って、
チューニングしてって全然やれてないので、
裸感がないなとは思うので、
レベル4作りたいとか言う前に、
レベル3をちゃんと作るっていうのをやらなきゃいけないのかな、
RAGの基本概念
みたいな感じの気持ちはある。
ちょっとこれ妄想レベルではあるんですけど、
コミュニティのサービスとかで、
他のユーザーに対するメッセージとか投稿とか、
パーソナライズされた何かしらのテキストを生成したいときに、
その文脈情報をどうやってラグするかっていうところで、
ユーザー間でそれぞれ、
Facebookとかが持ってる人間同士のグラフと、
多分イメージは近いと思うんですけど、
どういう関係性でとか、
どういうコミュニティに属していてとか、
どんなコミュニケーションをしているかみたいな、
そういうのは、
確かに普通のDBにはそんなに管理しづらい情報だから、
そういうところでグラフ構造のデータを作っていけると、
いいのかもとかはちょっと思ってたりしましたね。
そうですね。
さっきちょっと話題だした、
Amazonのレコメンドシステムの話とかも、
確か例というかエグザンプルとしては、
冬服っていうクエールで検索しました。
最終的に保湿性のあるコートって購入した場合には、
これは冬服っていうクエールには保湿性を求めるっていう意図があるはずだって解釈するみたいな。
これとかを構造で、
ここだと保湿性と冬服がつながってはいるけど、
厳密に言うともっと他のやつもあるので、
それとかを綺麗に構造化するときに使うみたいなイメージなんだとは思いますが、
あとはですね、グラフラグとかナレッジグラフとか、
この辺を掘り下げるかでも別でやりたいですね。
僕らのペイントのためにシンプルに。
そうっすね。
ちゃんと素振りしてやっていきたいですね。
そうっすね。
次回1次回3回後ぐらいとかにやりたいですね。
あとちょっと話戻しちゃうんですけど、
レベル3のところとかもパッと手順みたいな話があったので、
ラグも多段階の、
まずクエリに対してどういう手順が必要かみたいな、
台上段のラグなのかな。
そういうのを引っ張ってきて、
それをインプットの文脈に合わせて、
さらにデータ取ってきて、
うまいこと実行していくみたいな、
ラグもそうなんですけど、
そういういわゆるエージェンティックワークフローを作っていくみたいな、
どっちかというとそっちのほうが結構大変そうだなみたいな、
イメージが思い浮かびましたね。
そうですね。
イメージレベル1以外はイテレーティブラグじゃないですけど、
一定理論みたいなところとか、
イテレーティブラグの舞台とかはこれですけど、
多分クエリ拡張とかクエリバランスとか、
そういうのとかも含めてとか、
複数のデータソースがあるとき、
どこからどう取ってきてみたいなところだったりとか、
それこそPower App ExeとかGenSparkとかがやってるようなプロセス、
あれが一定必要っていうのがレベル2以上ではあるんでしょうね、きっと。
そこに今回のレベル分けでいうと、
もうちょっとドメイン特化みたいな、
みたいなものがあったりとかが出てくるのがレベル3なのかな。
どうだろうな。
レベル2とレベル3は結構僕もそんなに一緒具体にしてしまった方が、
今のラグに対するイメージとしては分かりやすい気はしちゃうので、
レベル1とレベル2、3とレベル4ぐらいの間隔とかで、
なんとなく取られてるかもしれないですね。
あんまりそこの2,3とか別に、
ここそんなシビアじゃなくても別にいいやろぐらいにしか取られてないかもしれない。
私もそんな匿別してそんな嬉しいイメージは持たなかったんで、
違和感もないですね。
やっぱ一応ドメイン固有の根拠をちゃんと理解する、取ってくるっていうのが、
一番はレベル3の特徴なんでしょうね。
現実のシナリオでユーザーの質問にどのように対応すべきでしょうかっていうのを、
カスタマーサービスワークフローを参照しながら答えるみたいなものとかがレベル3ってイメージなのか。
やっぱドメイン固有の根拠をちゃんと引っ張ってきます。
ちゃんと参照します。
ちゃんと適切に使って回答します。
やっぱりラグっぽいですけど。
レベルに関する考察
全然話変わりますけど、やっぱチェーンオブソードとかって、
こういう話題の時とかに絶対出てくるぐらいめちゃくちゃ浸透したなみたいなのがすごい感じますね。
最近それこそオーアン出てきて、モデル自体が。
リフレクションとかね。
確かにリフレクションもありましたね。
モデル自体がそういうふうにトレーニングされていくっていう方向も出てきたっていうのが結構面白いですよね。
うん、ですね。
もう完全にそっちのみんなその方向ではあるし。
逆にその辺りの、そのチェーンオブソードのプロンプティングみたいなのが発見されて、
リフレクションだったりとか、モデル自体の共同にも組み込まれてっていう流れがきてて、
推論能力みたいなのが、複雑なプランニングするみたいな能力が上がってるから、
レベル4ワンチャンいけるかもねみたいな話だ。
ワンチャンっていうかそのうち程度はどうまで作れる。
今でもそれっぽいものは絶対作れる。
僕の最近の趣味活はこのレベル4のやつをカプラで作ることなんで。
財務分析とかに閉じて作ってますけど。
まあでもあれですね。評価超むずいですね。
いやーそうですよね。
そんなちゃんとやってないけどそれでもいいか悪いか分かんないなこれみたいな。
どうでも。
分かるんだろうなみたいな感じになってますね。
そもそも自分が評価できるようになるのがむずいかも。
理想で言うとそれこそ、
ちょっと前のイヤスタとTikTokがバウンスされるかされないかみたいな。
アメリカで?
アメリカで。
そうそう。
それがなんかTikTokが本当にアメリカにバウンスされるのか、
バウンスされたらどうなるのかみたいなのに回答できるのはレベル4だと思うんですよ。
いやー。
多分。
でもそれっぽく回答できるところまでは作れるんですけど、
これが正しいのかどうなのかちょっといまいちよく分かんないから、
もうちょっとやっぱユースケースとか特定しないと判断もしようがないというか判断もむずいので、
やっぱレベル3、4あたりだとどう評価するかみたいなのはちょっとまた難しくなってくるなっていうのをすごい感じますね。
それっぽいけど見ても分からんみたいな感じ。
ここだなー。
まあでもアナレッジグラフとかラフラグとかイテレティブラグとかその辺とか機会があったらぜひ取り上げましょう。
はい。
この辺が熱いんでね。
というところで今回はそんな感じですね。
ではお付き合いいただきましてありがとうございました。
ありがとうございました。
35:59

コメント

スクロール