1. AI未来話
  2. #31 OpenAI DevDay徹底解説!2..
2024-10-10 31:35

#31 OpenAI DevDay徹底解説!2025年はAIエージェント元年を予告

spotify apple_podcasts

[今回のタイムスタンプ]
()Voice Mode APIで何が実現できる?音声対話の可能性
()音声AIが普及!未来のレストラン予約はこうなる
()音声AIで変わる?教育現場の未来
()教育分野におけるAIと人間の役割
()人間が教えることの価値とは?
()OpenAI CEOが語る、進化し続ける「o1」
()2025年はAIエージェント元年!OpenAI幹部が予測
()1000万トークンのコンテキストウィンドウは実現するのか?
()AGIに対する見解の変化
()サムアルトマンの手のひらドリル!?

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

[AI顧問サービスはじめました!]
https://miralab.co.jp/adviser/

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

[お便りはこちら]
https://forms.gle/j8sJ1v1hH5JSaZm97

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

[公式X]
- AI未来話
https://x.com/ai_miraitalk
- MiraLab AI
https://x.com/MiralabAI
- 平岡将和
https://twitter.com/dicamp_hiraoka

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

[AI未来話/各種リンク]

- note
https://note.com/aimiraitalk

- Spotify
https://open.spotify.com/show/4YQI4JvX83mURM6xywKn5w?si=34b96be128584bad

- Apple
https://podcasts.apple.com/jp/podcast/ai未来話/id1733462439?uo=2

- LISTEN
https://listen.style/p/aifuturetalk

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

[更新スケジュール]
毎週木曜日AMに更新


[AIメディア MiraLab AI]
https://miralab.co.jp/media/

```

サマリー

OpenAI DevDayでは、高度なボイスモードとリアルタイムAPIが発表され、音声会話機能が多くのアプリケーションで利用可能になる未来が示されています。また、教育への活用や音楽著作権の問題についても話題にされています。このエピソードは、OpenAIのDevDayにおけるAIエージェントの進化と、2025年がAIエージェント元年になる可能性について詳しく掘り下げています。ボイスモードやプロンプト生成機能の新たな展開が、教育やコミュニケーションの未来に与える影響について触れています。2025年がAIエージェント元年になることがオープンAIのサム・アルトマン氏によって予告され、作業を迅速に実行できるエージェントの長期計画が語られています。また、AGIに関する見解や新しい科学的発見についての考察も含まれています。OpenAI DevDayでの新たな発表を振り返り、2025年のAIエージェント元年の予告とその重要性について考察しています。

OpenAI DevDayの概要
AIメディア編集長のたつけです。 AIコンサルタントの平岡です。この番組は、AIの最新動向をもとに未来を交差するポッドキャスト番組です。
本日のトークテーマは何でしょうか。
新しいボイス網路とAPIで音声窓口の未来が変わる。
リアルタイムAPI。
はい、来ましたね。
来ましたね。
ちょうど今日収録日なんですけど、今朝ですね、OpenAI DevDayというのが行われまして、朝からネット上はお祭り騒ぎとまだ言わなかったけど、
AI界隈の人たちはみんなやっぱりね、かなり関心が高い状況でしたね。
そうですね。
なので、一応今回の話のメインとしては、このOpenAI DevDayで発表された内容だったりとか、
あとその後のサム・アルトマンのインタビューの内容とか、その辺を中心に紹介するんですけども、
その中でもメインで話したいのが、やっぱりこのボイスモード。
新しい高度なボイスモードの機能とAPIの連携のところっていうのをメインで喋っていこうかなというふうに思います。
そうですね。皆さんはもう使われましたかね。たすけさんも使われました?
ボイスモードのほうですかね。
ボイスモード。
ボイスモード、はい、使いましたね。
すごいですよね、あれ。
すごい、もうナチュラルな会話で、隣で奥さんと喋りながらやってたけど、もう二人でなんかキャッキャッキャ笑いながら。
楽しそうですね。
いいですね。僕もね、本当は無限な可能性あるなと思ったので、ぜひですね、このボイスモードをしっかり理解していきたいところですね。
リアルタイムAPIの可能性
じゃあまずですね、OpenAI DevDayで発表された機能なんですけど、主な機能としては5つ発表されました。
リアルタイムAPIとプロンプトキャッシュ、モデル上流と画像のファインチューニング、あとシンプレグラウンドの機能という5つですね。
で、そのうちのこのリアルタイムAPIっていうのが、今回のこのDevDayでも目玉の機能みたいな形で発表されてて、これがまさしくこのボイスモードとAPIの部分になるんですけど、どういうことかっていうと、
もう本当早い話が、ボイスモードのAPIを使うことができるよということで、音声のトークンのAPIが使えるようになりました。
いや、API使えるの?早くない?もう使えるの?って感じ、感覚としては。
そうだね、それこそこのボイスモード出てすぐ、ヒラと会話した時もさ、これAPIとか出たら本当にやばいと思うよみたいな会話した中、もう真ん中に出ましたね。
そうだね、こんな一瞬で出るとは思わなかったね、さすがに。
そもそもそのボイスモードっていうのがさ、人間のように自然にナチュラルな会話ができるっていうのが売りだったわけで、それがAPI連携するとどうなるかっていうと、
もう要は他のアプリ、いろんな様々なアプリケーションにこの音声会話の機能が実装できるっていうことなんだよね、事実上。
そうですね、開発いらずというか、本当にそのAPIを突っ込むだけで実装できるので、
誰でも手軽にリアルタイムのAPIを使えると、お金さえ払えばね。
すごいよね、そこはね、だから。
すごいですよ、本当に。まだ、今現時点ではすぐに使えるかといったら、きっと多分使えない、まだ難しいと思うんですけど、
でももう本当すぐだと思いますよ。半年、1年とかでかなり実用的になってくるんじゃないかなとは思いますよね。
そうね、やっぱりネックになってるって言われてるのは料金の部分で、音声入力が100万トークンあたり100ドル。
出力が200万トークンあたり200ドルって言われてるので、やっぱりまだまだ価格は結構高い。
わかりやすく言うと、1時間使うと時給1300円とか1400円ぐらいだったので、バイトに代替するにはちょっと高いかなみたいな。
そうだね、最低賃金より上?
そうね、最低賃金よりちょっと上ですね、現状が。
そうだよね。
だから結構言われてるのがさ、AIの方が優秀だけど、人件費の方が安いから人間に任せるみたいなさ、
ちょっと逆転現象みたいなのが起きかねないよねみたいな話あるよね。
そうですね。機械の導入もね、コスト換算すると結局そういうことなので、ここの価格下がらないとまだ普及はしないですよね。
そうだね、だからまあ徐々に徐々に多分対抗度がさ、別のとこから出たりとかするじゃん。
そういうのでちょっと価格競争とかが起きて、金額が安くなるっていうのを待つしかないよね。
まあ普通のね、LLMモデルもどんどんどんどん今値段下がってますから、
性能が良くなって価格が落ちるってわけわかんない状態がずっと起きてるんで、多分こっちもね、そのうち下がるでしょうっていう感じですね。
そうだね、だとやっぱりね、O1の時もそうだけどさ、より高度なものっていうのがまた出てくるから、
もしかしたら二極化でさ、簡易的なものが安くて高度なものはめちゃくちゃ高くみたいな二極化のパターンも、
それもありますね。その辺がどうなるのかによって変わってくるところではある。
けども、もしこのリアルタイムAPIで高度な音声モードがいろんなところに使われたらどうなるのかっていうところでいくと、
例えば、再検回収みたいな感じでさ、いついつまでに料金払ってくださいみたいな、テンプレで会話するような電話問い合わせとかあるじゃん。
ああいうのとかがこういうのに置き換わってきて、電話かかってきて、いついつまでにお金払ってくださいみたいな、
いやちょっとまだ今厳しくてみたいな、その辺のちょっとした受け答えを全部もうこのボイスに任せるんじゃないかみたいな未来が見えたりとか。
なるほどですね。普通のテンプレートの音声の電話がありますよね、それ。
ああそう機械音声だけのやつですね。
そう機械音声で。で、プッシュしてその番号でいつ払えるのかみたいなっていうのはありますよね、ルールベース的なのは。
そうだね、それはあるね。それがもっとこう自動的な会話、自然な会話ができるようになったりとかね。
コスト考えたら前者の方がめちゃめちゃ安いでしょうからね。それをする必要あるのかって感じもしますけど。
教育への応用
確かにね。まあそれ言われると確かにルールベースだけで十分じゃんみたいなところがあるよね。
まあルールベースそうですね。
もうちょっとあれだよね、こっち側から問い合わせて質問して受け答えをするっていう業務。
だから役所の手続きの案内とか、税金の問い合わせとか。
そうですね、そういう方が使い道ありますよね。
でもそこの領域って役所とか国絡みのところだからさ、落とそうなところだよね。
そうですね、だから人手不足のところからどんどん普及していくんじゃないですかね。飲食店とか特に。
そうだね、やっぱりそれこそ飲食店の予約とかそういう連絡電話とかはね、こういうアプリケーションが。
だからね、食べログとかがAPIでこれを導入するみたいになったら、食べログからの予約はこの音声で地上でやり取りできるようになるみたいな未来が待ってることってことね。
そうですね、レストランの予約とかはAIがやってくるっていうのは全然普通にありえそうですよね。
この辺はやっぱりAPIが出たことによって身近なアプリに入る可能性があるっていうのはすごい面白いところですね。
そうですね、あと飲食店で言ったらカウンタースタッフとか、属人性のない受付とかだったら全部大体できそうな気がしますよね。
あれでしょ、モニターみたいなのがあって会話してみたいなね。
なんかもう今マクドナルドがそうなってる映画一瞬で浮かんだもんね。
全然想像できますよね、映画館のチケット売り場とかさ、とりあえず人手不足に対してはたぶんニーズがすごくあるような気がしているので、そこはどんどん普及してきそうな気がしますね。
そうね。
実際今回のデブデイでも400個のイチゴを電話注文するっていうデモが披露されたのよ。
400個のイチゴ。
400個のイチゴでそのやり取りで音声ボイスモードの方が、ボイスモードの方って言い方変だけど、ボイスモードの人が喋ったのに対して会場がダイブアクション。
そんな感じだったんだ。
英語わかんないからいまいちどんな面白かったのかよくわからなかったけど。
わかんなかったんかい。
でもそれぐらい笑いが起きるぐらい自然なやり取り。
なるほどね、本当にそこに人がいるか。
だから注文とかも実際デモでやってるってことはレジとかのところっていうのはかなり早く入りそうな感じはするよね。
なるほどですね。
あとこのデブデイの中で音声モードが歌えないのよ。歌を歌わせても歌ってくれなくてその理由は何ですかっていうのを質問されたのに対してやっぱり著作権の部分があるから歌わせることができないんだみたいなことで。
でサムアルトマンも開発者側が法的なリスクを犯すようなことは提供はできないって言ってるから歌ってくれるけど著作権の部分で歌わないようにするとかもうちょっと細かいところまで制御できたらいいよねとは思うよね。
確かにそうですね。大事なところだ。
あとやっぱりこのボイスモードのすごいところは教育のところでかなり活用ができそうだなっていう思いがあって。
そうですね僕も思いますねそれは。
それこそねこの前ヒラと話してたけどさなんか発音がわかんなくてボイスモードに聞いたみたいなこと言ってたよね。
ああそう英語の練習を一緒にしてみたいなことをお願いしてその英語でこういうこと喋ってもらうと。でね発音が聞き取れなかったんですよ。
でごめんなさいもう一回言ってってなったらゆっくり喋ってくれるんですよ。でごめんもう一回お願いって言ったらなーんなーみたいな感じでめちゃくちゃゆっくり喋られてすげえ腹立ったって話ね。
そこまでやんなくてもいいよみたいな。
でもねそれをちゃんと組み取ってやってくれるってすごいよね。
いやその組み取ってはもらってるんですけど。
でもやっぱりさそこ需要あるなって感じるじゃん。
思いますね。
だからこそだと思うんだけど今回のデブデイで英語のさ学習アプリのスピークあんじゃん。あれとこれがAPIで繋がったデモがさ流されててさ。
ああそうなんだ。
そうそうそう。だからもうほんと実際にその英語のアプリでこのボイスモードを使って英会話の練習ができるっていう。
うーん。
実際にもうそれが提供されてるから。
なるほど。
全然すぐそういうアプリがいっぱい出てくるんじゃないかな。
そうね価格落ちればまだ出てきそうですねバンバン。
だからやっぱ学習系?
AIエージェントの進化
学習系はめちゃくちゃいいと思いますねほんと個別最適化されるからねほんとに。
あとはねそれこそヒランもこの話はしてたけどさ営業のロープレとかにも使えるよね。
ああ確かに確かに。
そっち系のアプリ。要は会話が必要なものには結構どんどんどんどん乗ってくるような気はするね。
面接のロープレとかもそうだし、学習とか研修とかそういったものに関してはめちゃくちゃ使い勝手良さそうな気がしますよね。
そうだね。
ほんと人に教えてもらう時代ってあったよねみたいなことになりかねないですよね。
そうだね。
動画以外で。なんか対面で教えてもらうことってめちゃめちゃレアなことというかプレミアなことになっていきそうな気がしますよね。
教育に関してはさ、なんかそれこそアートとか芸術の世界とか作品系だったらさ、人間が作ったものはそれはそれでプレミアっていうのがわかるんだけど、
学習で人間の方がいいってさ、あんのかな。
まあ分かりやすさとかはね、どうなんですかね。
でもだったらそのノウハウを入れたAIにすればさ、同じくらい教えやすいというか分かりやすい説明になるわけじゃん。
教育において人間が教えることの意味ってすごく難しいよね。
確かに。なんだろうね、この人の思考は落とし込めるっていう前提で考えたら、まあぬくもりとか。
そういう話になってくるよね。
この人に教えてもらいたいとか、本当にこう学習したいみたいなことに加えた別のことではなく感情的な側面しかないよね。
だって弟子入りみたいなノリというか、その人についていきたいみたいな。
この人から学びたいとか、AIじゃなくてこの人の思考をもっと学びたい。
間近で見てたいとかね。
新しくその湧き出る思考とか考え方の吸収したいとか。
やっぱりAIより進化していかないとそうはならなそうですよね。
だからやっぱ学校とか塾とか、そういう文脈の感じの学習じゃないよね。
確かにそうですね。先行だるいわみたいな、そういう感じになっちゃうとAIでいいよねみたいな。
そうね、でもそれが今までだとテキストベースだけだったから、そうは言ってもっていうところがあったのが、結局この音声ができることによっていよいよそれが、
今だってしかもさミーティングとかもzoom使ってモニター越しでやるわけじゃん。モニター越しで人と会話することに対して違和感がない。
オンラインの授業とかあったじゃん。この名の影響で。
確かに。
先生がモニターで勉強するっていう環境に違和感がないっていうのを一回経てるから、そうなるとこのボイスモード使ったアバターの授業ってもう人間と一緒だよねっていうふうな発想になりかねないよね。
確かにむしろわかりやすいし、多分だけど自分の推しの声とか好きな声とかに変えてできたりとか、自分の好きなアバターに変えてやるとかっていうことも多分できるよね。
そうね、そのうちね。
そう思うと、これで勉強したいってなりそうだよね。意欲が高くなりそう。ただその時間に行かないとちゃんと勉強しないっていう強制力さえちゃんと仕組み上発揮できれば、学校の機能ってきっとそこなんだよね。
勉強する場所っていう強制力以外なんかなさそう。教師としての人が教える価値っていうのはAIを超えていかないといけないよね。
新機能の紹介
そうだね。あとはコミュニティとして友達とか仲間とか、そことの繋がりを学ぶっていうためだけにいくようなものになっていくところがあるよね。
結局やっぱ人の繋がりとか、その人に学びたいと思える何かがないと、あとはもうAIでいいかもみたいな感じにはなんか想像ちょっとついちゃいますね。
我々のAI未来話でもね、こういう話はよくするけど、今回はこのボイスモードっていうのがそれに近づくっていうところを覚えておいてほしいっていうところはあるよね。
そうですね。今現時点でそうなるってわけじゃなくて、これができるようになったってことは、これがもう進化したら終わりだよっていうサービスに組み込まれて。
意外とそれはそんなに遠くないというか、1年とか2年ぐらいでかなり浸透するんじゃないかなと思いますね。
で、今はこれボイスモードってさ、裏で動いてるのは4Oじゃん。なんだけどこれがね、O1とかでこのボイスモードが実現したらどうなるのっていう話だね。
そうですね。IQ120とか持ってる、もっとすごい知能を持ったね、推論ができるものが話せるってなったらもう恐ろしいですよ。
ちなみに、ちょっとこれ後半で話そうと思ったんだけど、関連があるんで今喋るんですけど、このDevDayの後にサムアルトマンのインタビューがあったんですけど、そこでこのO1の進化についても語られてるんですよ。
で、このO1は非常に早く大幅に改善されるっていう風に言ってて。
なんでかっていうと、おそらく過去の経験上、GP2を作った瞬間とこのO1を作った瞬間が今同じぐらいだと。
で、GP2からGPT-4までどういう風に到達するか我々は知ってると。だからこのO1をGPT-2からGPT-4に進化するぐらいまでの過程は一瞬でできちゃうよってことを言ってるわけよ。
なるほど。ってことはGPT-4にはボイスモードあるよね。これはもうボイスモードも近いんじゃないですか。
そういうことですか。どんどん頭良くなるAIがどんどん喋り出すと。だからこれについて教えてって言ったら、ちょっと待ってくださいねって言って20分ぐらい推論して答えてくれるっていう未来は全然あり得る。
めっちゃ怖い。 めっちゃ怖いよね。もうねここまで来ると僕らもちょっと怖くなってきてる。正直。
早いよね進化が。 早いよ。だって1年半2年前ぐらいですからね。なんかもうよくわからんテキストを出してくるやつが出てきたのが。
2年でこんな喋るようになっちゃったみたいな。頭良くなっちゃったみたいな。怖いよね。
APIは色んなアプリに組み込まれるっていうのはとにかく広く広がっていくっていうその第一歩なんで、これは結構重要なニュースかなっていう風に個人的には思ってますね。
ここからは残りのものですね。一番メインなのはやっぱりボイスモードなんで、ここからはちょっとサクサクとどうしても開発者向けの機能なんで、あんまり細かいところを説明してもっていうところはあるんですけど。
みんな離脱しちゃうよ。 でしょ。でも結構これ今後面白い可能性は秘めてるなっていう風に思う部分があって、例えばAPI用のプロンプトキャッシュっていうのがあって、キャッシュっていうのは一時的に記憶していくっていうもの。
だから何回も何回も同じプロンプトを読み込ませると、その度通信するとお金かかるじゃん。だから2回目3回目はもう過去にやったものを使うよみたいな感じで、
ウェブサイトとか開く時とかにさ、1回入るとさ時間かかるんだけど2回目3回目もパッパーって表示してくれるのよ。あれはキャッシュって一時的に保存してるっていう機能使ってるんだけど、それがトークンでもプロンプトでも実現するっていうお話。
めっちゃいいっすねそれ。 めっちゃいい。であとはモデルの上流機能。これは大規模モデルの出力で小規模モデルのファインチューニングが可能になるっていう。
だから大きいモデルで小さいモデルをチューニングするから結果的に効率的にモデルが使えるよみたいなことですね。であとは画像対応。ファインチューニングに画像が対応できるようになって、100枚の画像で。
これ意外とインパクトでかいっすよね。 これ意外とインパクトでかい。結構開発系の人のXとか追ってても、とうとう画像対応したファインチューニングみたいなの言ってる方は結構多いよね。
ねえすごいですよね。要はさディフュージョンとかさロラとかってさみんな作ってるわけじゃん。自分の好きな画像読み込ませてその画像が出るようにチューニングしてるじゃん。あれをGPTでできるようになったってことですよね。
まあそういうことだね。 だから好きな画像を吐き出させるようにより手軽になったって感じですよね。
ディフュージョンとかだとさむちゃくちゃクロート向けというかロラ作りますとか何言ってるんだろうみたいな感じですか。それがもっと当たり前に簡単にできるようになっていく感じですよね。
そうだね。だからそういう画像100枚用意してくれれば学習させますねっていう簡単なやりとりになるっていう。
すごいですね。
だからまあ開発者側の人じゃないとこのようなインパクト伝わんないかもしれないけど、使ってる側としても今後こういう画像系のAPIで繋いだようなサービスのレベルが上がるっていうふうに思っといていただければって感じですね。
あとはプレイグラウンドの新しい機能。これも意外とすごいやつで、これは簡単に言うとプロンプトの自動生成機能ですね。
例えばこういうプロンプトを作りたいっていうふうに送ったら長いプロンプトを自動で生成してくれるという。
プロンプトジェネレーターみたいな。
プロンプトジェネレーターですね。
これはGPTにもつくみたいな。
これはチャットGPTで使えるわけじゃなくて、APIとかを出力するための開発者向けの画面があるじゃん。あそこでこのジェネレーター機能が使えるようになる。
なるほどですね。
そういうことですね。
なるほど。
だからもしAPIまでは使わないけど結構チャットGPT使ってるよっていう、中流層って言ったらあれだけどさ、開発者とちょっと間ぐらいのいるじゃん。バリバリ使ってるんだけど開発まではしてないみたいな人たち。
それぐらいの人たちは開発者向けの画面入ったことないんだったら一回入ってこれ使ってみてもいいかもしれない。
そうですね。
確かに。
最近プロンプトジェネレーターってクロードとかも出したりとかしてさ。
いろんなところでてますよね。
そうそうそう。それがチャットGPT系でも使えるよってことですね。
なるほどですね。
一応全体的なDevDayの内容としては以上になります。
エピソードのまとめ
ありがとうございます。
ちょっと開発者向け、もうAPI中心だったんで、チャットGPTユーザー的なノリの人からするとちょっとつまらない、面白くない回だったかなっていうところがあるよね。
前半のボイスモード、あれがねちょっとインパクトがでかすぎて、たぶん今聞いてる人めっちゃ少ないと思う。
そうかな。
もう前半にそれ喋った方がよかったんじゃないかなみたいな。
まだやっぱメインだからね。
メインだからね。
でも後半は大丈夫です。サムアルトマンさんがインタビューでいろいろとね、今後の未来について語ってくれてるんで。
まだ後半あるんですか。
後半あります。
そうなんですね。
なんでサムアルトマンさんが語った、このインタビューで語った未来をちょっとここから紹介していこうと思います。
2025年はどうなると思いますかっていう質問に対して、最高製品責任者のケビンウェイルさんとサムアルトマン二人が喋ってたんですけど、
早い話はですね、2025年はAIエージェントの年になるというふうに明言されております。
もうタイムリーじゃないですか、我々のポッドキャスト。
我々のAIエージェント界を聞いた方であれば、やっぱそうだったんだというふうに思っていただけるよね。
そうですね。だから僕らサムアルトマンみたいな感じですよね。
じゃあ僕はケビンウェイルです。
そうですね、なるほど。どういうことを喋ってたんですかそれは。
オープンAIの長期計画におけるエージェントの位置づけってどういう位置づけなんですかみたいな質問に対しての回答だったんだけど、
サムアルトマンが言うところによると、やっぱチャットのインターフェースは大事だけど、
でも複数の人間が数日かかる作業をパパパって実行できるようになって、これによって1ヶ月かかるタスクをエージェントが1時間で完了して、
同時に10個のそういったタスクを1000個のタスクを同時に依頼するみたいな、そういうふうにしていくことが大事だと。
こういった変化が世界の仕組みを変える。だからそれが長期計画の中でそういうことができるようになるのがエージェントだというふうにオープンAIは言ってるって感じだよね。
めちゃくちゃわかりやすく言うと、今まで1日かかってたような仕事を1時間でエージェントができるようになります。
それを同時に100体とか1000体とか走らせられるから、一瞬で仕事何もなくなるぜみたいな、そういう世界になるよってことですよね。
そう、だからチャットGPT出てチャット便利でちょっといいじゃんってなったでしょ、でももう次はそのステップだよっていうことを言ってるからね。
次のフェーズに行きますよと2025年は。
ただその前回も話したようにさ、5段階のステップがあるじゃん、オープンAIが言ってる。あれのレベル3がエージェントなわけじゃん。
今はレベル2ですよね。
だからこれがオープンAIからエージェントが出てくるわけじゃなくて、要はこういうAPIとかを駆使して開発者たちの創造性によってこういうものが実現する、2025年は。
エージェントの進化と開発
多分そういうのでAPIによって開発されたものが実現した後に多分オープンAIから本ちゃんのやつが出てくるみたいなイメージなのかな。
先週ね我々が番外編で話したところでそのAIエージェントを作ってる会社さんにインタビューしたわけじゃないですか。
そんな感じで結構各社いろんなところで実は水面下でエージェントを作ってますみたいな会社って結構たくさんいるんですよね。
そうだねそこの会社さんもあとちょっとしたらリリースというか公表できる段階に来てるみたいなことを言ってて、
だから今こう蒔いた種が花開く瞬間に今ちょうどあるようなイメージがあるみたいな。
間違いないそんな感じしますね。
だからこそサムアルトモンも2025年はって言ってるように多分こっからもうそういうすごいのがバタバタバタって出てき始める瞬間かもしれないね。
2025年多分やばい年になりますよ。
やばい年になると思うね。
本当に多分想像できないぐらい世界変わってますよ来年は。
で考えるとやっぱりボイスモードがAPIでつながるっていうのもやっぱなんかねそこが紐づくというかさ会話ベースでそういうものができるようになったりするわけだから
やっぱすごい未来がまだとんでもないことになってると思います本当に。
あと次面白かった質問がですね1000万トークンのコンテキストウィンドウについて喋ってて、
要はコンテキストウィンドウ今後どのように見てますかみたいな質問があったわけですよ。でそこでサマールとマンが2つのこと言ってて、
1つ目は正直そんなに需要あるみたいなこと言ってて多分予想以上にその長いコンテキストって使用頻度低いと思うんだよねみたいなことを言ってるのよ。
で2つ目としてはいつ到達するのかということでやっぱりその研究所のブレイクスルーみたいなのは必要だけどおそらく10年以内に実現するんじゃないのみたいなことを言ってて。
だからそんなに重要視してないけどまあこのままやってれば1000万トークンぐらいいくよみたいなことを話されてた。
なるほどですね。やっぱあんまり重要度が高くない感じですね。
そうだねだから結構オープンAIってさ他のサービスが何か出したらそれに追随するってのよくあったけど、
ジェミニーが200万トークン出したって言ってても全然乗ってこないじゃんオープンAI。
そうですねGoogleぐらいですよねそのトークンたくさん突っ込めますよって。
だからあんまりやっぱりその辺重要視してないのはわかるけどもまあ10年もせれば1000万トークンぐらいは入れるようになるよって。
実際ね100万あれば200万全部使ったことないもんねあれ。
200万はないね。本当に長尺の動画を突っ込んで要約するとかめちゃくちゃ膨大なテキストを入れたりとか。
そんな使わないよね1000万とかね。
でもサムアルトもこの長いコンテキスト別にいらないよって言ったけどこのインタビューの中で最近使った他社のAIサービスで良かった製品ありますかって質問に対して
あーノートブックLMあれは超クールだったよ。
いやいやいやそれはあなたコンテキスト長いからできるやつですよみたいな。
間違いないおもろいなそれ。
でもねノートブックLMが一番サムちゃん的にクールだったらしい。
確かにあれはねマジでクールだと思うわ。
ノートブックLMはすごいね。
だから他はどれも似たり寄ったりとか同じような方向性のサービスばっかだけどやっぱ独自の視点というか全然違う切り口のサービスだからやっぱそこはすごいなって思ったみたいな。
間違いない。
まあちょっとねこの辺は来週ちょっと紹介したいなと思ってるんで。
はい。
AGIの現状と未来
であと最後ですねやっぱりこの話が一番気になるところでしてAGIについてですね。
あーなるほど。
AGIについてどのぐらい近づいてるんですかっていう質問に対してサムアルトマンはですねAGIっていう用語が過剰に使われてるから今は避けてますと。
もはやね。
だから新しく5段階のフレームワークっていうのでやってるって言ってて。
多分その5段階のフレームワークが何かってのは話じゃなかったんだけどこれはさっき言ったような多分推論者AIエージェントって前話した5段階あるじゃん。
多分あれを基準に考えててそれが全部達成した頃にはAGIなんじゃないのみたいなそういうニュアンスで多分言ってるって感じだよね。
なるほどっすね。
気になったのはですねAGIによる新しい科学的発見については以前ほどの確信が持てなくなっているっていうふうに言ってたんだよね。
そうなんだ。ちょっとネガティブじゃねっていうか。
ちょっとネガティブですね。
そう。
しかも商品担当のケビンさんもAGIがあるかないかみたいな捉え方考え方は古いからもうその世には考えてませんみたいな。
AGIはもうなんかあるとかないとかそんなこと言わないでみたいな。
怒っちゃったみたいな。
ネガティブな感じするよね。
そうなんですね。
一応まあ歴史的な背景としてその実現時期みたいなこと言うとチューリングテストって言ってコンピューターが人間と区別できないほどの知性を持ってるかどうかみたいな評価するテストがあるんだけど、
これが通過できたのにその時全然注目されなかったんだよと過去に。
だからなんかそれでちょっと拗ねてるのかわかんないけど、だからなんかもうそこは過ぎてるよみたいな感じのことを言ってたんだよね。
拗ねちゃってるねそれは。
ちょっと拗ねちゃってる可能性はある。
なるほどね。
ちょっとね我々のフォトキャストでもAGI擦りすぎてるんでね。
そうね。
もうそろそろAGIって喋ったら怒られそうな気がしますね。
だからサマルトマンももうAGIじゃいいよみたいな結構うんざりしてる感はあったし。
なるほど。
で、計算能力の拡大が正しいアプローチだったけども、やっぱりこの新しいパラダイム、既存の考え方とか方法論を抜本的に変えるような新しいものを見つけることが大事だみたいなことを言ってて。
だから今回そのO1がまさしくそうじゃん。今までとは違う視点でやった結果いいものができたじゃん。
だからああいうものをあと何回か見つけることができればAGIは達成できるんじゃないのみたいなことを言ってるんですね。
まあなんかあれだね、そういうこと先週のポッドキャストでも社長さんが言ってた通りじゃない。AGIって定義何ですか?のとこだよね。
そうだね。
まさしく。だから結構抽象的な概念だから、何かのタスクを代替できたらそれがAGIならそれがAGIになるから、なんかもう気にしなくていいよね、その言葉に対してって感じはしますよね。
そうだよね。だからこそその5段階のステップっていうのを作ってるっていうのはまあ理にかなった説明ではあるよね。
間違いない。だからまあそれから考えるとやっぱり組織ごと変わっていくっていうとこまでは到達するんでしょうね。
そうね、確かに。
だからAGIAGI言うてますけど会社組織がAIになるっていうのはまあ近々きますと、10年以内くらいには来ると。
それをAGIって呼ぶんだったら呼べば?みたいなそんなニュアンスだったんだよな。
そんな感じですね、確かに。
そんなサムアルトマンがですね、このオープンやデブデーの当日にXで呟いてたんですけど、この開発日から次の開発日までさらに進歩できることに興奮しています。
AGIへの道がこれほど明確に感じられたことはありませんでした。
あの手のひらドリルやばくない?
よくわかんないよね。
いやコンテキストウィンドウなんてそんないらないでしょう。最近EAなんすか、ノートブックLMで。
そう。
で、AGIとかもう言うなよとか言って、
AGIやばいわとか言ってる。
ドリルやばいよね。
DevDayの発表とエージェントの未来
やばいよね、手のひらグラグラグラになってるよね。
すごいわ。信用できなくなってる。
まあでもなんていうのかね。
ちょっとまとめがないけど。
このサムアルトマンは手のひらドリルマンだね。
手のひらドリルマン。
サムアルトマンって呼ぶのやめる?
ドリルマンね。
ドリルマンにする。
確かに。
なるほどっすね。
AGIっていう定義は難しいけど、
君らが言うAGIみたいなものには近づいていってるよみたいなニュアンスなのかもしれないね。
なるほど。
なかなか面白いデブデイでしたね。
はい、そうですね。
はい、それではエンディングでございます。
エンディングちょっとなんか話すことあんまないかもしれないですね。
今日ちょっとフリートークじゃないけどね、なんかずっと喋っちゃったもんね。
むちゃくちゃ濃密な感じでしたね。
結構知らないことも多かったです、僕。
あ、本当ですか。
今朝だったんで、Xパーって見て、あーなるほどねぐらいしかちょっと捉えてなかったんで、
結構その後半に喋ってたインタビューの内容が思ったより面白かったっすね。
サムハルトマンもやっぱノートブックLM最高だって思ってんのが、やっぱそうなんだって感じはしたよね。
そうだよね。
あれ本当に便利だからね、来週多分話すと思うんですけど、
この後喋るんだけどね。いいっすよね、YouTube突っ込んでできるようになって。
でもやっぱエージェントの年ですね。なんかすごくない?
エージェント回は4話やってきて、番外編で全部で第5回分喋ったわけじゃないですか。
その伏線回収がなんかさらにできたっていう。
そうね、本当に。
2025年はエージェントの年ですよと。
まあね、開発してる人はみんなもう当たり前だろうって感じだと思うんですけど、
やっぱり僕らもいろんな情報をかき集めた結果、
まあ2025年は想像もできないとんでもない年に乗ってるんだろうなって感じてるので。
そうだね。
マジでね、準備しといた方がいいねって思いますね。
何を準備するんだっていうのは、AI未来話を聞いてみれば、
なんとなく推察はできていくんじゃないかな。
まあそんな感じでね、今日はおしまいにしたいと思います。
ありがとうございます。
最新情報の共有
はい、それでは最後に告知です。
AI未来話の公式Xが始まりました。
Xでは最新ニュースやお便りの紹介など、
リスナーの皆様との交流の場にできたらと考えていますので、
ぜひフォローのほどお願いいたします。
概要欄にリンク貼っております。
またお聞きのPodcastアプリで、
AI未来話の番組フォローとレビューもお待ちしています。
フォローしていただくことで最新話が更新され、通知がきます。
この番組はランキングに入る可能性が上がります。
お互いウィンウィンなので、ぜひフォローのほどお願いします。
来週も木曜朝7時に更新されます。
通勤通学のお供に聞いてくれると嬉しいです。
ということで本日もありがとうございました。
はい、ありがとうございました。
31:35

コメント

スクロール