隣のデータ分析屋さん。この番組は、隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁ、をかなえるポッドキャストチャンネルです。
データアナリストのりょっちです。
データサイエンティストのたちゃんです。
AIエージェントの話をしよう。
最近よく見るよ、ワードを。
見ますね。結構前から俺多分ネタ出しの時にしたいよな、みたいな言いつつ、あんまりできずにいた分野。
なぜにこのタイミングで?
いやなんか、今収録のタイミングが12月の頭なんだけど、11月ぐらいに多分ねマイクロソフトがコパイロットの中にそのAIエージェント、純正のやつぶち込むよみたいな話をし始めて、
それでAIエージェントっていうワードが一回なんかちょっとバズワード的な感じで世の中に出回ったんだよね。
世の中って言っても多分データサイエンティストという界隈の中だけなんだけど。
それで、サービスとして出すっていうぐらいもう来てんだと思って、近いうちにポッドキャストで喋るかと思ってた。
そういうことね。
確かに、AIエージェントを使ったサービス企画とかっていう話はちらほら聞こえてきて。
あーほんと。
うん。
まあでもそうだよね。今AIの最先端でなんかプロダクト作るってなったら多分AIエージェント入れるっていう話になるんだけど、そもそも何っていう話をしないともしかしたら聞いてる人は分かんないかもしれなくて。
ついてこれてない可能性はある。
そうそうそう。だからAIエージェントって汎用AIの一個手前?
AGIとかいうそういう話?
あ、そうそうそうそう。AGAがハゲだよね。
そうだね。AGAがハゲね。
そうそうそう。AGI、AGI、そうAGI。
そんまさよしがAGIの話をすると話が入ってこないってこの前いじってましたよね。
そうそうそう。あれのせいでマジでかにばってる。
全然かにばってないのよ。
AGIはアーティフィシャル。
そう、ジェネラルインテリジェンスかな。
汎用AI。
になっていてそこにもうタスクとしては結構近くなってくるかなっていう。でその次がシンギュラリティらしいんだよね。
あー言うね。確かに。
地を超越するみたいなステータスがそのAGIの先にある世界で。でなんかAGIとかはなんだかんだ2030年前後ぐらいには来るんじゃないみたいな話になってるらしくて、
そこまでのわーやっぱAIいたらこれだけ変わるわっていうのが一番実感しやすいそのフェーズをまあAIエージェントって呼んでる感じ。
あーなるほど。
なんか自分がこの前いろいろ調べててオープンAIが出してるレポートで言われてる5段階のレベルみたいな。
そのAGIの中の5段階のレベルっていうのがあって。
はいはいはい。
でそれがAIの進化につながるんですけど一番低いレベルが自然な会話ができるレベル。
高いねレベル。
でもまあ1、2秒くらいの遅延でこっちが何か言ったらAIがレスポンスしてくれるみたいな。
あー今じゃあMacOSとか専用に出てるあのChatGPTのボイスチャット機能がまさにその一歩目を踏んでるよみたいな。
あーそうですね。もっと前だったらHey SiriとかOK Googleとかあのレベルでもいいのかなと思うんですけど。
あーまあ確かに。
っていうレベルが1で、レベル2が人間の白志望レベルの知識を持ってるっていう。
あれ?この間の欧湾の説明じゃない?
このレベルはまだレベル2くらいで人類にはまだいるじゃないですか。その白志望の人たち。
だからまあ大体同じくらい。アインシュタインとかよりは下全然。
前々回くらい?もっとか。論文かける云々って言ってた時のいわゆる人間の独創性とか人間の着眼点みたいなところより一歩手前みたいなところだね。
そうですね。知識を獲得して何かを理解してるレベルくらいですね。
ここからレベル3レベル4レベル5になるにつれて自律的にタスクを実行するがレベル3で、
新しい発明とかをしだすがレベル4で、さらに組織的な活動を行うみたいなのがレベル5っていう風に。
一応定義はあるらしいんですよ。AIのレポートによるとですよ。
で考えたら多分今の話だとレベル3とか4とかその辺りがAIエージェントが今指してるところなのかなと。
多分ねその自律っていう言葉がオートノマスっていう言葉が多分キーポイントになってて。
AIエージェントのことをアーティフィシャルインテリジェンスエージェントっていう風に扱うパターンもあれば、
オートノマスインテリジェンスっていう風に。一応言い換えるパターンも記事のいくつかにあったりするんだよね。
オートノマスが自律。それで自律エージェントっていう括りでAIエージェントみたいな。
でこの自律って何かっていうとAIエージェントのイメージとしてはある経営みたいなのを与えてあげて、
例えば人間の社会とかちっちゃい村みたいなのとかを与えてあげて、
その環境の中でもうすでにLLMってAI同士を会話させるっていうことが全然できるし、
なんならオンライン上でチャットしてる相手が本当にAIじゃないっていう確信が持てないぐらい、
俺らからしたらもうさ、自然なわけじゃん。
そうだね。わからないよね。
そうそうそうそう。で、だからそういうレスポンスができるだけじゃなくて、
お互い会話してったらその会話を記憶として積み上げていったりとか、
何かそれをきっかけに、その積み上がった記憶をきっかけに次の新しい行動の決断ができる。
ディシジョンメイキングができるみたいなところも一応LLMの範囲にはある。
で、それらが特定の環境の中で環境のルールに合わせて動いてった時にどういう動きをするかとか、
その中にいくつものAIを入れた時にお互いにインタラクションを起こしたら、
なんかその中で育まれる関係性みたいなのってどうなるんだろうとかまでできるのがAIエージェント。
いわゆるAIが自分の意思でまるで動いてるかのように見えるような働きをしてくれるのがAIエージェントの話。
はいはいはい。もうロボットみたいな世界観だよね。
まあ、そうね、そうね、まさに。
まさにドラえもんだね、これは。
確かにドラえもんはだから、もうそのぐらいだよね。
ドラえもんと言ってもいいぐらいにはなってくる。
ドラえもんってシンギュラリティよりも前にいるんだろうね、きっと。
どこからやってきた?21世紀からやってきた?
あ、そうだよ。だからもう今よ。
あ、今21世紀か。
そうだよ。
2100年までが21世紀か。
そうそうそう。だからまだ70年ぐらいマージンがある。
なるほど。
残されてます。
ドラえもんの世界観は1900年代後半の時代あれは。
あ、そうそうそう。
なるほど。
ロジコF・フジオが生きてる時代だから。
そっかそっか。まだ空き地がある時代だもんな。
土管のある空き地ね。俺見たことないもん、土管のある空き地。
しかも3個積んでるやつね。
そう。あんな危なすぎるもんね。
危ないね。
俺ら世代はもう多分あの宝くじ基金が作った遊具とかがある公園で遊ぶ世代だから、もうないから土管なんて。
じゃあまあ、そっから見た時に21世紀からやってくる自立型のエージェントロボット、ドラえもん。まさにそれだ。
そうそうそう。
最近の話はじゃあちょっと最後にするとして、マイクロソフトがめっちゃ注目を集めてるっていう話が多分俺らには一番直で関わってくる、もうAIいなきゃ仕事できんがほぼ完成する世界。
それよりも前にAIエージェントっていう言葉とセットで色々試されてた部分ってどんなのがあるかというと、やっぱさっき言ったみたいなシミュレーションみたいなところがやっぱり大きかったりする。
それこそさ、俺最近仕事でコンピューテーショナルソーシャルサイエンスっていう計算社会科学っていうのをずっとやってるみたいなネットワークの話とかさ、してたじゃん。
ああいう分野で結構世界的に論文とか見てても、AIエージェントによって経営の中での例えば人の社会的な動きみたいなのをシミュレーションするみたいなのが結構もう半年1年以上前から研究として出てたんだよね。
そうなんだ。
なんかそこあそこって結局社会科学を定量的に処理していくみたいな話だから、例えば集団の中での人の動きとか災害があった時に人の避難する経路とかを最適化するとか、
そこに結局それってなんかじゃあパスを最適化したら本当に人はそうやって流れるのかというと、やっぱ周りに流されるとかいろいろあって、多分理想通りには動かないよねみたいなのを、例えばシミュレーションするとかをやったりするところに、
こうLLMがめちゃめちゃグアッてきた時に、じゃあそいつらをインタラクションさせ合って、で、そいつらにどういう動きをするかも委ねちゃおうみたいなシミュレーションの仕方にシフトしてる部分が多かったりした。
何?実際の人じゃなくて、なんかAIがその人の動きを生成するみたいなそういうイメージ?
じゃあ実際の観測するデータではなくて、なんかこう作られた、それをシミュレーションって言ってるんだと思うんだけど、データでこんな動きするよね、あんな動きするよねみたいなものをたくさん作るってこと?
そうそうそう。
そういう生成用の使い方ね。
っていうので、なんかこう、よりリアルなシミュレーションができるような世界になってきてるみたいな話があって、で、それの中で2000、これね、日本語の記事でも英語の記事でも何個か見たことあって有名な例があるんだけど、
大規模言語モデルと対話型エージェントを使って、ゲームの環境の中に25個のそれぞれ自立するエージェントを作って、そいつらに会話をさせた時に中断行動をさせるの、その25エージェントを。
ゲームの中で?
ゲームの中で。で、チャットとかさせて、で、最初にその25個それぞれのキャラクターの設定みたいなのを与えてあげて、で、あとは日々過ごしながら、じゃあすれ違う時にちょっと会話がありますよとかっていうルールを決めて、環境の中に放り込むわけよ、25個のエージェント。
そうしたら、エージェント間で対話がどんどん積み重なっていって、何日間か経過していく中で友情関係とか、友情とかそういう人間同士の関係性みたいなのが形成されるのか。
例えば、25人のうち1人とか2人にしか伝えてない情報がお互いの会話の中で、何人かに伝播していく様子とかを捉えたりするわけよ。そうすると限られた情報が拡散してるってことはお互いに人として繋がりあって、で、一般の会話をしてる中で、そういえば彼ってみたいな話とかがどんどんAIエージェントたちが積み重ねていく。
新しい知識が作られるのか。
そうそう、まさに。それによってグループのダイナミクスが形成される。つまり集団行動を人工的に再現することに成功したっていう研究が出てたのよ。
AIを使った伝言ゲームみたいな話なのか、これは。
でもそのエージェントたちに、この言葉を多くの人に伝えるように行動してくださいとかではなくて、あくまで対話したことをメモリーとして残していく。
で、なんか人間の中で、例えばすれ違った人と挨拶するっていう日常的なイベントから、なんかみんなでパーティーをするっていうような大規模なイベントとかで、この特別さっていうのをちゃんと実感するような設定とかもちゃんとしてあげて、で、生活をさせる系の中で。
っていう風にやると、何かこうじゃあ1日の中で誰かと喋ったとかっていうのがどんどんメモリーとして積み重なっていって、だんだんだんだんこう知識が他の人にも伝わっていって、なんか左端の方で起きてた現象が誰かとの会話の中で伝わって右端まで届くみたいな。
そこまでいくとあれだよね、さっきのそのAGIの5段階レベルで言うと、もうなんかレベル5の組織的活動ができるとか、なんか複雑な状況の中で何か実行する能力をエージェント自身が持つとかっていうレベルまでいけちゃってるのかなと思いますよね。
そう、俺もそれ聞いて最初あれ、この研究って5かなってちょっと思ったんだけど、多分そこのレベル5で求められてるのって、今の現実社会でのもう資本主義とかも含め、人間の営みをAIが担うとか一部トレースしているみたいな状態が5なのかなって。
そのレベル感ではありますよね。
つまり、これはあくまでゲームの中のめっちゃ限られた中で、なおかつ少数のエージェントでインタラクションしやすいような環境の中でどうするかみたいな話だから。
っていうので、ただそうやって一人一人にちゃんと、自我まで言っちゃうとちょっと怖いけど、対話できるスキルとそれをメモリーに載せておくっていうのと、その残ったメモリーがどれだけ大事かっていうのをちゃんとそいつらが自分のLLMのモデルの中で判断して、スコア分けてみたいなことをして動いていく。
とかっていうのはもうLLMがある程度の、たぶんこの2023年だから4とか出る前だよね。GPT4とかが出るとか前ぐらいの、オープンAじゃない可能性もあるけど、その細かいのは忘れちゃったんだけど、とにかくLLMができて対話が蓄積された情報の中から自然にできるようになってきただけで、
ある程度の環境を与えるとAI同士で社会性を一定作るっていうのが出てきたのが2023年。
O1とか出始めたのって結構最近だから、その一個前の世代ってことはまだ限られたタスクしかできないよねっていう状態ですよね。
そうそうそう。だから目の前でされてる会話は自然にできる。
しかもチャットってほらさ、たとえば普通にPowerPlexityとかChatGPTとか使ってたら、そのチャットの中での過去のやり取りっていうのは蓄積された上でここを変えてくれみたいに言ったら変えて返答してくれるとか、絞った情報にしてくれるとかで、そもそもメモリーを蓄えるっていうところはもう実感するじゃん。
できてるよね。
使ってる中で。
その蓄えられたメモリーをお互いのモデルが持っていて、で自分の設定の中でこうやって動くだけみたいな感じだから、別にそんなに想像を超越するようなことをしてるかというとそうでもないんだよね。
確かにマシンのスペックが高いものを使ってたらできそうだよねとか、そういうレベル感ではありますね。
LLMのモデルを25個違う設定でKの中に置いて自由に会話させたっていうイメージ、ただ。
なるほどね。
そういう条件を与えてあげたら確かにできそう、けどちゃんと確認できてるのはすごいなっていうような感じ。
つまり今の話をまとめると、その一個一個のエージェントのプロフィールみたいなものをちゃんと設定してあげて、その背景知識だったりもそうだし、他のエージェントと対話したっていう記憶をちゃんと残してあげて、
なおかつどういう行動をしてくださいみたいなルールとかプランをちゃんと与えてあげて、で行動させてあげる。
この4つがお互いに連携しあって動いてる状態をAIエージェントと呼びますみたいな。
なるほど。指示というか役割を持った状態のAIではあるのか。
そうねそうね。そうやって言われると、確かにもう今それにリーチぐらいまでは来てね、みたいな感じするじゃん。
そうだね。普段使ってるあいつらもAIエージェントではありそうだなって思いますけどね。
そうそうそうそう。だから、もう徐々に時代はちゃんと汎用AIに行くまでの間のステップであるAIエージェントに近づいてるわけよ。
うんうんうん。
意識せずに。
なんかそれをどう使うかとかの議論の方が注目されてるけど、そもそものAIエージェント自体はもうすでにできてるっていう、そういう状況?
そう。使い方によってはもうそれをAIエージェントと呼べるんじゃないのみたいな。
じゃあなんか改めてここでAIエージェントの話をする意味はどこにあるのかって。
なんか実感し始めるフェーズに来るんじゃないのっていうあれで、例えばAPIとか使ってうまく裏のプロンプトとかを整理しておくことで、
なんかスペシフィックなタスクを任せるみたいなことがAIにやらせられるじゃん。
例えば議事録生成して議事録のフォーマットに落とすところまでやってくださいみたいなところとか。
競合調査してくださいみたいな、この情報をかき集めてきて吉田にまとめてくださいみたいなところってできるようになってきていて、
それがより複雑なタスク、つまり分岐がたくさんあるような仕事すらAIに任せられるようになりそうっていうのが、
AIが自律的に動いているからこそできる。
で、なんかこうよく言われるのが会社とかで経費生産する時ってやっぱり人の目が入ってたりとか、
いろいろしなきゃいけないし、じゃあ差し戻しがあるとかっていう判断とか、なんかこのパターンだからこっちにするとかっていうのの分岐がたくさんある。
なんかでそれをちゃんともう、じゃああなたはそこらへんのバックオフィスの仕事をするAIエージェントですよっていうのをプロフィールを与えてあげると、
それで複雑な動きをしても、時と場合によって、じゃあこれだったらこういう返事しなきゃいけないわっていうのを自律的に考えられるようになる。
っていうのがより顕著に出てくるとこに近づいていくみたいな。
言ってないけどやってくれるみたいな状態ってことだよね。
そうそうそうそう。察するみたいな、よしなに動くがだんだんできるようになってくる。