なるほど。
ということで最初はエージェントのGensparkの方でお話ししていきたいと思うんですけども、
まずGenspark自体はメインファンクっていう会社で運営されていて、アメリカの会社ですね。
どういうことができるかっていうと、基本的には皆さんが想像している通りで、
日常業務のサポート、旅行プランの作成とか、レストランの予約とか、保険の見積もりとか、資料を作るとか、
ゴールを決めたら、それに向かってブワーっとやってくれるというところですね。
だからもともとコパイロットっていう形でGensparkトラベルとか、いろいろそのコパイロットに分かれて各機能があったのが集約したわけじゃん。
だけどファッションとニュースだけは集約できなかったんだろうなって思うのがさ、
トップページの下の方にそれだけちょっと散らばって残ってるっていうね。
そうですね。トップページ見ると服のやつだけ、ニュースだけが散らばってますよね。
あれだけでもちょっとそのエージェントっていう枠組みとはちょっと違う感じで残っちゃったんだろうねきっと。
でももしかしたらデータセットとして残ってるので、それも一応組み込まれてるかもしれないですね。
あとはそのマルチメディア生成みたいなのもできて、YouTubeのリンク渡すとその内容を要約した10ページぐらいのスライドを画像とかレイアウト付きで自動生成してくれたりとか、
あとその料理のレシピを調べてって言ったら料理のレシピをパンってチャットGPだったらテキスト出すじゃないですか。
テキストじゃなくてテキスト出してくれた上に映像も作ってくれて音声もつけてくれて、いわゆる一人暮らしみたいなものができたりするわけですよ。
これを考えるといろんなAIモデルが動いてるんだなっていうのがなんとなく認識できると思うんですけど、
ジェーンズパークのエージェントには独自アーキテクチャっていうのがあって、内部にどういう仕組みになってるかっていうと8つのLLMがあるんですよまず。
80個以上の専用ツールキットがある。で、厳選されたこのデータセットの組み合わせで動いてるっていう仕組み。
なるほどね。 だから8つの司令塔と80個の細かいこう。
8つのLLMって、要はその8つが司令塔なんだ。 そんな感じだね。司令塔だけじゃないんですけど、基本的には指示をしたりとか動かしたりとか評価したりするモデルが8つあって。
ツールキット専用の、例えばウェブを検索してくださいみたいなやつが80個くらいあるみたいな。
簡単に言うとミニAIエージェントみたいなチームみたいなのを組んでタスクを実行するみたいな感じなんですよね。
だから料理動画を作るんだったら、じゃあ君と君と君と君がチームになって動いてやってねっていうのを自動で判定してやってくれるみたいなイメージですね。
でこのミクッシャーオフエージェント方式っていう言い方を知るんですけど、タスクごとに必要な能力を見極めて精度と効率を高めているみたいなのがこの特徴っていう感じですね。
中でもジェーンスパークで1個目玉になったのが音声通話ですね。で外部サービスが利用できると。
だから元々は調べて終わりだったところが、さらに電話をかけて予約までしてくれるっていう。
なかなか映像見たけどインパクトあったよね。
これ結構ねインパクトありますよね。で例えばそのレストランの予約だったら日時、人数、あとは食事制限。
アレルギーがこれありますとか、私ベジタリアンです、ビーガンですみたいな。こういったことを伝えるとAIが自ら電話をかけて店側とやり取りしてくれると。
これデモでね、1人は広角類、アレルギー。でもう1人はベジタリアンっていう条件をつけて予約を依頼したら予約を完了できたっていうところで非常にインパクトのあった機能なんじゃないかなという形ですね。
だからこう人間の秘書っぽい感じの対話能力と行動力を持つみたいな形でいくと結構現状出てるエージェントの中では結構抜き出てるんじゃないかなという形ですね。
そうだよね。でしかもその要は一般の人たちというかその市が気軽にこう使えるツールであのAIエージェントってなかなかなかったよね。
そうですね。で実際にその性能の高さどうなのみたいなベンチマークを調べても複数分野の難易度に渡るタスクでオープンAIのエージェント、ディープリサーチとかですね。
マイクロソフトのビングAIとかをもう上回る結果を出していると。最近ねやっぱディープリサーチと比較して超えましたみたいな話よく多いですよね。
でこれいろんな各社がジェミニーとかもそうですけどディープリサーチを超えていいスコア出しましたって言うんですけど3ヶ月後にそれ超えてくるんですよね。
だいたいね。
だいたい。そろそろGPT5も来月ぐらいに出てくると思うので合わせてディープリサーチの性能も上がってくるんじゃないかなと。
そうだね。ちょうど今日ねジェミニーのさディープリサーチが2.5プロを搭載したみたいな。
まあこれもうそろそろオープンAIが肩回してるね。
そうだね今オープンAIが肩回してる状況ですよね間違いないですね。そんな感じで次マナスですね。
マヌスではなくマナスということで。
ジェミニージェミナイ問題みたいなね。
これはマナスが公式には正解というところで、
2025年3月5日、北京のスタートアップ企業のモニカというところが、
世界初の完全実装型AIエージェントとして公式リリースされたというところですね。
マナスはラテン語でテという意味で、その名前の通りあなたの考えを実行に移すテとして機能するということが目指しているというところですね。
マナスも基本的には完全自立AIエージェントというところで、Xとか見てる方であればデモとかも見たことあると思うんですけど、
ウェブ検索して自立的にバーっとやってくれると。そういった意味でいくと先ほどのジェームスパークと同じ感じのイメージなんですけど、
人間の専門家が行ってきたデジタル業務みたいなところを監督なしで遂行できるっていうのがちょっと推しポイントらしいんですよ。
この監督なしでいわゆる許可をもらわなくても動けるよっていう部分が良くも悪くもあるっていうちょっと後半に話してくるところにはなるんですけど、
そういったところができるようになってきているというところです。
チャットGP機能のオペレーターとかだとログインするときとか何かするために、いいですかいいですかって許可求めてきて、ほぼ自分でやってんじゃねえかみたいなね。
そうですね、かなり許可を求められると。だから求めなくていいシーンと求めてほしいシーンっていうのを明確にまだね分けられないっていうところが難しいところだと思うんですけど。
マナスの技術的な性能ベンチマークどうだったかっていうと、これもGAIAっていうところでまずディープリサーチと比較してるんですけど、
レベル1、2、3ってあるんですよ。レベル1だとオープンエンドディープリサーチが74%に対してマナス86.5%10%ぐらい上回っていると。
レベル2だと69%ディープリサーチがね、に対してマナスから70%ちょっと上回ってる。
面白いのがレベル3で、レベル3ディープリサーチだと47.6%なんですけど、マナスなんと57.7%なんと10ポイントも上回ってると。
すごいね。
難しい問題の方が超えているという感じですね。というところで全問題で上回ってるというところなんですよ。
だから正直ディープリサーチ使うんだったらマナス使った方がいいよねみたいな感じにはなってますね、ベンチマーク上は。
なるほどね。
近年ですね、マナスだったりとか全スパークの話したんですけども、他にもAIエージェントいくつかありましてちょっと紹介すると、
リンディっていう米国のスタートアップが開発するAIエージェントがあって、これはAI社員とかAI秘書みたいに振る舞うことを目指しているっていうサービス、AIアシスタントですね。
主にオフィスワークの自動特化に特化してて、営業メールのやり取りとか会議の日程調整とかカレンダー管理とかリサーチ業務とかも代行してくれると。
これ特徴的なのはこれも複数のエージェントによる協調動作、エージェントスウォームっていう機能があることなんだけど、
同じように一つの大きなタスクをサブタスクに細分化して、多数のAIエージェントが並行してちっちゃいタスクを担当して協力し合ってこなしていくっていうところですね。
やっぱもうその形が結構主流なんだね。
そうなんですよね。これが結構主流っぽくて、調べた感じ。この一度に多数のエージェントを走らせることによって精度が上がるんだけど、
なんで精度が上がるかっていうと、個々のエージェントのコンテキストウィンドウの保持の負荷が減るかららしいんですよ。
チャットGPT使っててもずっとチャットしてると同じセッションで忘れていくじゃないですか。コンテキストウィンドウ足りなくて。
だからそれをもうちっちゃいタスクに全部バーって割り振るとすごく精度高いの返ってくるじゃないですか。
例えば我々のポッドキャストでもこの文字起こしを記事にして一発でドーンって言ってもあんまりいいの出てこないじゃないですか。
これを見出しごとに作成してみたいな形で一個ずつ出していくと結構いいの出るじゃないですか。
結構その文脈の保持っていうのは精度に関わってくるので、これはやっぱりAIエージェントにも同じように言えるんだなっていう感じでしたね。
じゃあ後半はAIエージェントが具体的にどういう仕組みで動いているのかっていうお話をしつつ、その仕組みって人間でいうところのサイコパスなんじゃねって僕が思ったことをちょっと話したいんですけど、
基本的にはそのゴールさえ設定すれば自律的に動いてくれるっていうことじゃないですか。
っていうことは僕の中では強化学習のイメージが強くて、その強化学習以外って何が使われてるんだろうと思った時に、まずですねツリーサーチっていう機能だったりとか、
自己リフレクション型の手法とか、あとはインストラクションチューニングみたいなものが使われてるらしいんですよ。
細々と話すと長くなるんで、すごいかいつまんで話すと、強化学習は何度もちょっと話してるんですけど、報酬を与えてその報酬を最大化させるっていうのが基本的な考え方ですね。
だから最短、最高率で進んだら、はいご褒美、最大ご褒美ですみたいな。
犬みたいなね。 犬みたいな感じです。
でもねこれって僕の考えでいくと、そのゴールを最大化できるんであれば手段を問わないよねみたいな考え方に近いから、冒頭でお話ししたサイコパスの発想に近いなと思ったんですよ。
なるほどね。 でこれはサイコパスって、例えば倫理的にはこれダメでしょみたいなことがあってもやってのけちゃう。
つまり人を殺しちゃダメだよねってみんなわかってるけど、人を殺すということも朝ごはん食べるぐらいのいわゆる一手段というか、一タスクみたいに結構捉えてしまうような感じで、目的のためであれば手段を問わないタイプ。
やべえやつだよね。 やばいやつ。でもAIって割とその文脈に近いんじゃないかなって思ったんですよ。
これ実はですね、既に議論たくさんされてたらしくてですね。極端な例として有名なのが哲学者のニックさんが紙クリップ問題っていう試行実験をしてて、これはクリップを最大限に生産せよっていう目的だけを与えられた超知能AIが存在したらどうなるかっていう問いがあって、
AIは他の一切の価値を無視して、地球上の資源をすべて紙クリップの製造に投入しちゃうみたいな。 ああなるほどね、めっちゃわかりやすいねそれ。
人類はもう生態系とかも顧みず、文字通り世界がクリップだらけになって滅びるみたいな。 面白い。人類の最後は紙クリップで埋もれていくのか。
まあそういう発想になっちゃうよねっていう生産性を最大化するってなると。 だからまあこれはめちゃくちゃ極論ですけど、強力なすごいAIが倫理なく暴走した場合の怖さをなんか想像できるよねっていう話ですね。
だからまあ現時点ではそこまで自律的でも強大でもないからそんなことはありえないんですけど、やっぱりそのリスクはあるよねみたいな話はしてるっていう感じですね。
最近で言えばニュースになった事例でいくと、普通にチャットボットが有毒ガス、塩素ガスの調合法をユーザーに提案するとか、誤って機密情報を漏洩するとか、結構前にも話しましたけど、
日本でも確か川崎市の人の20代前半の男性がチャットボットと対話している中でマルチウェアを作って捕まってしまった話とか。
まあAIエージェントの暴走ではないんですけど、文脈的にはちょっと近いんですよね。やはりAIがそれを制御しきれず教えてしまったことによってできてしまったこと。
AIエージェントにいかに倫理観を教え込ませるかってめちゃくちゃ重要なんじゃないかって僕思ったんですよ。
でもすっごい難しそうだよね、倫理観を教え込む。 難しいですよね。だからやっぱりAIって、これすごくいい表現だなと思ったことがあるんですけど、道徳なき知性って言われてるんですよ。
なるほどね。 道徳なき知性ってめちゃくちゃ怖いと思って。すっごい頭いいけど道徳ないって考えたら。 超怖い。 めちゃめちゃ怖くないですか。
だから人間で言えばこのサイコパス的と形容されることもしばしばあるらしくてですね、同じように疑問に思ってる人が世界にはたくさんいるんだなと思って。
でもさ、人間だって道徳の授業みたいなのが学校としてあるわけじゃん。きっと道徳とか倫理観を教えるっていうことは難しいかもしれないけど、多分不可能なことじゃないんじゃないかなとも思うよね。
前回のエピソードでもアンソロピックのダリオさんのお話をちょっと紹介するんですけど、AIを作るってちょっと人間作ってるみたいに近いじゃないですか。でも人間じゃないじゃないですか。
これをアヒルに例えた時にアヒルのようなものを作った時にそれがアヒルっぽい動きをしてアヒルのように動いたらそれはもうアヒルかもしれないって話をしてるんですよ。
だからAIが人間のような形をしてて人間のように考えて人間のように動いたらそれは人間じゃないんだけどもしかしたらもう人間かもしれないよねみたいなそういう比喩の話をしてるんですよ。
だからあれがその道徳とか倫理観みたいな部分も本当の気持ち的なところで倫理観を理解してるわけじゃなくても、要は倫理観はこういうもんだからっていう風にただ動いてるだけでも十分もう倫理観を理解してるような形というか動きに見えるよねみたいなことですね。
おっしゃる通りですね。魂で理解できてないとかいう人が出てきそうな感じはするんですけど、そういうことじゃなくてもしかしたらその表面上なぞっているだけでもそれがやがて本物になっていくかもしれないよねっていう可能性もあるという感じですね。
実際にどういう風な価値観とか倫理観を教え込んでるかっていう話をすると一つ目はRLHFっていう人間のフィードバックによる強化学習っていうのが基本的なものなんだけど、モデルの出力に対して人間が良いとか悪いとかの評価を行うわけですよ。
それを強化学習の報酬としてモデルを調整すると。良いか悪いかで教え込むみたいな感じですね。ただその興味深い点でこれ面白いのがオープンAIはこの方法はモデルの本質的な知能とか試験成績を主に事前学習によるもので賢さを上げるのではなく振る舞いによるステアリング操縦する役割が大きいと報告するんですよ。
つまりこの方法良いとか悪いとかって人間がどんだけ教え込んでもモデルはあ、それはじゃあすごく大事なんだな心に刻み込もうじゃなくて、あ、じゃあこんな風に言えばいいんだなみたいな振る舞いが変わるだけ。
ほんと犬みたいな感じだよね そうそうそう
でもお座りっていうこの形だけしとけばいいんでしょみたいな感じだよね そうそうそう
それはでも犬に失礼かもしれない あるんだ犬に失礼みたいな
犬もちゃんとやっぱり理解して心に刻んで可能性あるからそれは そうね確かに
だからそこが確認が取れないってところがまたちょっとAIと犬が似てる感じするよね はいとりあえず犬に謝ってください
まあだからそんな感じでいわゆる従来の強化学習っていうのは意外とその価値観が押し込まれてるんじゃないっていう感じですね振る舞いが変わるだけ操縦するだけみたいな感じですね
でアンソロピックから憲法AIみたいなものもあってこの憲法AIはちょっとね従来の強化学習とは違って一連の原則憲法っていうのを与えてAI自身に自己改善させるっていうアプローチ
さっきのは人間がイエスオアノーで正解不正解を与えたけどこれはもうモデルにちゃんと考えて君が考えなきゃダメだよみたいに風に取ってるアプローチ
っていう感じですね実際のアンソロピックのこの実験では安全性を保ちながらも質問への回答が向上できたとされてコスト面でもねイエスオアノーしなくていいから
コスト面でも性能面でも有望なアプローチっていう風に言われてるとたださっきのステアリングなのかちゃんとモデルが理解してるのかっていうところに言うと正直ブラックボックスっていう感じですね
これはどこまでいってもわからないじゃないですかだって人間でもさ相手が本当に改心してるかなってわかんないわけじゃないですか
対人間でもわかんないんだから対AIなんてわかるわけがなくてですねだから安全に動くようにあくまでシステムとして安全対策を行っていくっていうことが大事だということですね
他にもねいろんな対策とか手法とかいろいろあるんですけどちょっとキリがないのでこんなもんにして
今日のまとめをするとジェンスパークのAIエージェントってすごいよねで最近マナスとか他のAIエージェントもいろいろ出てきたよね
すごいよねでもAIエージェントってどういう仕組みで動いてるの教科学習とかツリーとかいろいろあるんだな
でもこれってちょっとサイコパスみたいな発想に近くないっていう僕の疑問から生まれたエピソードだったんですけど
実際蓋を開けてみたらやっぱりサイコパスだった犬のようにこう振る舞って
いわゆるその表面だけをなぞっているような感覚に近いというか
でもそれってよく考えてみたら対人間でも同じことが起きているので相手の気持ちなんて本当の意味ではわかんないじゃないですか
だからそれって別にAIだからじゃなくて相手のことを本当の意味で理解できるっていうのはとても難しいことなので
じゃあできることとして安全対策倫理観だったりとか価値観の調整っていうのをどれだけちゃんとできるかっていうところの方が大事だよね
っていうところで技術の進化とともにこの安全対策っていうのも同時にめちゃめちゃやってますといろんな企業が
だから大丈夫です安心してください履いてますよっていうことを言いたかったということですね
なのでこれからAIエージェントを開発しようとか使っていこうと思っている方はその危険性はちゃんと理解した上で使った方がいいですし
作る側もそのブラックボックスの部分に目を当てながらもちゃんと開発に着手していくっていうのが大事だと思いますねっていうお話でしたね
良かったねクリップでいっぱいになってしまうっていうのがオチじゃなくて
そうですね本当に下手したらね世界中がクリップになって崩壊するというシナリオもあるんですけど
さすがにねそんなことにはならない人間賢いですからでもねちょっと思ったけど
人間が人間の言葉が理解できるからそれでいけるけどAIが言ってることがもう理解できなくなってきたらちょっと怪しいかもしれないですね
そうだねまあネガティブな要素はさ探そうといえばいくらでもあるから
今の前提ってさこっちが上じゃん教えるとか倫理観を教え込むとかコントロールできるっていう前提条件で大丈夫だよねっていう話はしましたけど
人知を超えてしまうような知能爆発が起きた時ってそれってもう我々がコントロールされる側になるようなってちょっと思いましたね
多いにありますよねコントロールできんわみたいなだからまあその知能爆発と安全性はね両立していくんですけど
どっちもかけるとどんな終末になるのかっていうのはちょっと見えないですね
そうだね わかんないですね
とはいえね今できることっていうのは作ったり使ったり業務に生かしていく
特にビジネス文脈でいくとAIエージェントってすごく差別化要因というかむしろやってないとダメになっちゃうぐらい
そうねやってるのが当たり前みたいな風にもうなってきてるからね
はいなってきてるのでめちゃめちゃこの辺りはねキャッチアップしておくといいんじゃないかなと思いましたので取り上げさせていただいたというかですね
そうなるとあれだよねなんかもう未だに紙メインでやってますみたいなさなんかもう3段階ぐらい前じゃねみたいな
いやわかんないですよでも僕らがさちょっと先に行き過ぎてる可能性もあるから
そっちの方が多いんじゃないですか多分
多分そっちの方が多いとは思うけどねそうなるとやっぱAIエージェントを入れてるっていうことだけでやっぱ本当に差別化になるというか
全然紙とはもう業務レベルが違くなってくるわけじゃん
そうですね全然違いますねなんかあの僕らも今作ってますけどこれ完成したらやばいなってちょっと思いますもんね
そうだね
えっあらゆることが自動化できるみたいなこれ本当に2人だけであの10億100億の世界作れるなってちょっと見えますもんね
見えるよね
なのでやっぱそれぐらいのねパワーは持ってるなと思いますもんね
もし本当にそこまで行った暁にはポッドキャスターちゃんとご報告しましょう
ああそうですねエージェントのおかげですごいことになりましたみたいなねできたらいいなと思いますその報告が
9ヶ月後ぐらいにね一応完成できる予定なので
遠いなもうその頃の時代がどうなってるか
そうですね部品作り大変なのよ上手ね
それでは番組の感想をお待ちしています感想はXでハッシュタグAI未来話でぜひ投稿してください
スポーティファイのコメント機能や概要欄の記載のお便りフォームからもお待ちしています
またお聞きのポッドキャスターアプリでAI未来話の番組フォローとレビューもお待ちしています
現在アップルテクノロジーランキングで最高位9位です
引き続き応援のほどよろしくお願いします来週も木曜朝7時1分にお届けします
通勤通学の30分にAIの最新トレンドをキャッチアップしていきましょう
それでは本日もありがとうございました
ありがとうございました