1. rel.ax
  2. #29 言葉でゲームを操作する「..
2024-03-22 18:03

#29 言葉でゲームを操作する「SIMA」が開く、AIエージェントの新しい可能性

bbz
bbz
Host

ポッドキャスト第29回目の紹介 - NVIDIAが新しいGPU「Blackwell」を発表し、AIの推論性能が向上したことが話題となっている。
- AppleのiPhoneにGoogleが作ったGeminiを搭載する可能性があるとの噂が広まっている。
- 魚AIが新しい大規模言語モデルの開発方法を提唱し、注目を集めている。
- GoogleがYouTubeでAIを使用してコンテンツを作成し、AIの使用が明示されるようになっている。
- SAKANA AIがオープンソース化され、注目を集めている。
- 生成AIを主としたスタートアップ企業がKDDIの子会社化になり、資本力を得て成長が期待されている。
- スタビリティAIが高精度な3Dモデルの動画生成技術を開発し、話題となっている。
- 自然言語でゲームの操作をすることができるAIエージェント「SIMA」が開発され、注目を集めている。
- 「Devyn」というソフトウェアが開発され、ソフトウェアの開発をサポートするエージェントとして注目を集めている。
- AIの最適な情報を得るための手法やファインチューニングに関する検証記事が複数取り上げられている。 ※ タイトルや概要は AI にて生成させています。

放送で紹介されたニュースへのリンク

https://ainewsdev.substack.com/weekly-ai-news-35


放送の最初と最後の音声は https://elevenlabs.io/ で作成しました。

サマリー

今週の話題は、NVIDIAの新しいGPU「Blackwell」やAppleのiPhoneに搭載される可能性のあるGoogleのGemini、そして日本の魚AIによる新しい大規模言語モデルの開発方法などが話題となっています。 AIエージェント「SIMA」が言葉でゲームの操作をすることができる可能性があり、また、超便利なエージェント「Devyn」がソフトウェアの開発を最終的な成果物まで動かしてくれる高度な機能を持つことが注目されています。

AI技術の進化
この放送、リラックスは、1週間でよくネットに流れているAI関連の話題を、AIが自動でピックアップし、bbzこと私、ババゾノートセコンことタテノがつらつらと話すホットキャストです。
AXで暮らしに、ひらめきをオービジョンに、サービス体験や組織作りを行っている、工夫AIスタジオの提供で行っています。
ということで、リラックス、本日はやっていきたいと思います。
こんさん、よろしくお願いします。
よろしくお願いします。
はい、もう3月も終わりですね。
そうですね、久しぶりのリラックスですよね。
そうですね、ちょっと先週とか、お休みしてたので、久しぶりではあるんですけど、早くも30回間近ということで、ちょっと感慨深いところもあるんですが、
今週も1週間後で、ネット上にいっぱい流れたものをAIが収集して、その中からピックアップしたものをお話ししていくという感じになりますので、
今日も聞いていってもらえればなと思います。
今日はいつもよりちょっと数が多いので、のんびりと聞いておいてくださいという感じですね。
まず一つ目、一番個人的にはすごいなという話があったんですけども、新しいGPU、開発用のコードネームなんですけど、
BlackwellっていうのがNVIDIAさんが発表したと。
これによってものすごく効率が良くなるよねっていうのが今週話題となっておりましたね。
そうですね。NVIDIA、毎年毎年新しいものを発表してるんですけども、今回はその生成AIの推論と呼ばれる、その生成系のところにフォーカスして性能向上してきたということで話題になってましたね。
学習の速度が4倍だとか推論が30倍だとか言われてはいますけども、そのぐらいの速度でAIに関わるところの速度アップが期待できるというようなところですね。
基本的にはデータセンター向けの話なので、一般のご家庭にはあまり関係ないものではあるんですけど、そういう技術が出てきたよという感じですね。
一般のご家庭にも僕的にはすごくこのチップが実際のローカルマシンでも動くチップが発売される予定だとは思うので、そうするとご家庭のマシンもどんどん速くなっていくなと思ってますね。
そうですね。最初の一般っていうのは逸脱した一般の方かもしれないですけど、徐々に広がっていくと思いますね。
AppleのiPhoneとGoogleのGemini
ちなみにNVIDIAあるあるというかあれなんですけど、やはりこの発表を受けてなのか株価がまた上がってましたねという小ネタも挟みつつ、次のニュースに行きたいと思います。
次はですね、ちょっと実際のところどうなのか分からないんですけど、AppleのiPhoneにですね、Googleが作ったGeminiを搭載するしないというような話が複散上がっていたというので、結構話題となっておりましたね。
そうですね。これは本当に噂の話なんで実際どうかっていうところはあるんですけど、そうするとちょっと生成AIで一歩遅れを取っているGoogleとAppleはその時代のところにハードウェアも一緒になって、生成AIで体験を提供したいっていうところがタッグを組むっていうのは確かにひょっとしたら悪いかもなみたいな感じで聞いてましたね。
もともとApple自体も先週ぐらいですかね、MM1だったかな、独自の一般発表論文ぐらいだったかな、みたいなものを作ったりはしているものの、まだ実際に使える生成系のサービスがないので、Googleのものとか一緒にやっていくというのは十分考えられるところだなというところで。
本当かどうかは分からないですけど、ちょっと注目していきたいなっていうところですね。
次は、結構しばらく前から噂をされていて、一部のユーザーには使われていたXAI、イードン・マスクさんのところのGlockっていうAIモデルがあるんですけど、そこに関してオープンソース化もしましたよっていう話が今週は結構話題になってましたね。
オープンっていうところが。
そうですね。
これがリリースされて、結構そのリリースされたモデルっていうのも通常はいろいろ人と対話しやすいようになんかチャットする形式にうまく人と会話できるみたいなところをチューニングしてから出すっていうモデルが多い中で、結構そういうことをやらずにもうとりあえず作ったとや、みたいな感じのところでオープンにしていたっていうのもなかなか面白いなと思って。
そうですね。まあ、イーロンらしいというか何なのかですけども。
他の企業とはまた違った感じのね、提供の仕方でいろいろ注目されてるなという感じですよね。
そうですね。Xの確かプレミアユーザーは確か対話ができたのかなと僕はちょっとプレミアじゃないと使えてないんですけど、使ってる画像とかを見るとやっぱりちょっと他とは違う面白い回答を返したりするので、実際に使える日が来ると非常に楽しみだなと思いながら見ている感じですね。
続いてはですね、Google、YouTubeに関するところなんですけれども、まあ昨今、言わずもがないろんなコンテンツにAIを使用して作っているっていうところで、それが視聴者にもですね、ちゃんと分かるようにラベルを付けたりする。
明示的にこれはAI使って作ってるよっていうのが分かるような仕組みを設けてきたと。
これは当然と言えば当然なんですが、クリエイターの方にもちゃんとこういったものを使ってますよっていう説明を求めるように今後他のプラットフォームもなっていくだろうなっていうようなところですかね。
そうですね、なんかこう一昔前だとブログとかでね、こう実はこっそり商品提供されているけどそれを伝えずにこうやるみたいなステマみたいなところが今だとちゃんと義務的にそういうのは開示しましょうみたいになっていると思うんですけど。
早速生成AIのところも実際見ていてそれがフェイクなのかどうか分からないとかっていうと、純粋に楽しめなかったり間違えちゃってこう伝わったりっていうところがあると思うので、こういうところでみんなちゃんとうまくその使ってるんだったら使ってるよっていう形でうまくその伝えられると、それはそれですごくエンターテイメント的にも楽しめるようなものになっていくんじゃないのかなというのですごくいい取り組みだなと思ってみてました。
ちなみに情報の中だけで見ると、結構リアルなもの、ただ人の顔とか声とかそういったものについては明示的にする人がいるんだけども、明らかにおかしいようなファンタジーというか画風のものについては特にいらないよって書かれていたので、内容に応じてクリエイターの判断にはなっちゃうんですけど、
そういったところでちゃんとしていくんだろうなという感じですね。
なるほど。
日本の魚AIによる新しいモデル
あとはですね、これも一つかなり昨日ぐらいからに出てきたもので、日本初と言っていいのかちょっとわからないですけど、日本に拠点を置いている魚AIがですね、新しい大規模言語モデルの開発方法というところを提唱したというので、かなりに決まっておりましたね。
一部会話になるかもしれないですけど。
そうですね。魚AIが早速日本語対応のモデルも出していたりだとか、すごい非常に今までの手法とは違って学習時間が短く様々な手法でより良いAIを作るにはみたいなところで、今までと違ったようなアプローチで提案していたりして非常に話題になってましたね。
そうですね。今まで各社が新しいAIモデルを作りましたとは全然違うアプローチで、いろいろ組み合わせながら最適なものを見つけながら作っていくという、細かいところは喝采というか論文とか読んでいただければと思うんですけど、というので非常に盛り上がっていて、かつ、もともと話題を集めていた魚AIがちゃんと出してきたというところで賑わっていたと思います。
あとは日本系の会社の話だと、エライザっていう生成経営AIを主としたスタートアップの企業がKDDAIさんの子会社化になったというところで資本もかなり入れて本格的にといいますか、より大きなことができるようになってきたのかなというニュースが話題となっておりましたね。
そうですね。KDDIグループ入りといいますか、そうすることでしっかりKDDIさんの資本をもとにさらに活性化させていくみたいなところがあって、どうしてもLMの開発だと先ほどのNVIDIAのGPUじゃないですけど、すごく裏側のそのシステムに投資みたいなところが必要だったり、費用っていうのがかかってくるので、こういう裏側にある意味そのお金を払ってくれて研究が進むみたいなところが格好を組むっていうのは、なるほどなと思って見てました。
エライダさんも既に6Gのモデルを、6Gというかいろんなモデルを作ったりだとか、実績もある会社さんなので、今後楽しみだなというところですね。
今日は本当に数がなぜか多くてですね。
次はこれかな。スタビリティAIっていう会社のところですね。画像生成のステイブルディフュージョンとかで有名なところですけど、そこからですね、1枚の画像から3Dモデルの動画生成をするという技術が登場していて、かなり高精度な3Dが作れるようになったというので、これも話題となっておりましたね。
そうですね。今週ニュースが多いのはNVIDIAのカンファレンスがあって、そういうカンファレンス系が多いみたいなところで発表が多いっていうのと、あとはひょっとしたら期末なのでちょっと4月までに合わせて今出したみたいなところもあるのかもしれないですね。こういったいろいろその画像からさらに動画が生成されるみたいなところもどんどん進化しています。
これについてはですね、言葉で説明するよりも実際の画像とかを、画像というか動画化を見た方が分かりやすいと思いますので、後ほどPodcastとかにリンクを貼りますので、見ていただければなと思います。
最後、最後ではないんですが、最後にあえて残しておいたんですが、いわゆる生成AIというか、AIのエージェント周りの話が2つほどあったので、ちょっとまとめてしようかなと思っております。
ゲームを操作するAIエージェント「SIMA」
まず1つ目が読み方、シマでシマかシーマかであっていると思うんですけど、アルファベットのSIMAですね。これが自然言語で、人間の言葉で人間がプレイするのと同じようにゲームの操作をすることができるっていうものを、今完全に開発完了ってわけではないんですけど、いろいろ動かしていると。
かなりいろんなことができるようになっているというので、非常に話題になっていたなと思っておりますね。
本当にゲーム中によくあるような、崖を降りて、梯子を登って、メニューを開いてみたいな感じのところを、本当に自然言語で伝えるだけで、結構いくつかのゲームはそれが普通にプレイ、AIがプレイできてしまうみたいなところで、どんどんそういうところでも、いろいろエージェントがゲームの中でも仮想世界を動き回るみたいなところが、実際にうまくやれるようになってきたんだなっていうところで、非常にすごいと思って見てましたね。
これ、仮想空間上の中での自然言語での指示、その行動というところになるんですけど、これで単純に言葉だけではなく、ゲーム上の視覚であったりだとか、視覚って言っていいのかな、あれですけど、ビジョンですね、画像とか音とかみたいなところも絡めた行動になってくるので、
ここでの検証が進んでいくと、実際のこの現実世界でのロボットとか、そういったところにつながるエージェントの機能というのができるのかなと思って、そういった意味でも非常に興味深く見ている感じですね。
確かに、車の自動運転とかは、よくゲームの中での車に乗るっていうところからシミュレートさせてAIに学習させてみたいな研究も盛んだったりするので、実際今言われた通り、本当にゲームの中のキャラクターの操作っていうところを、より現実世界とリンクさせてみたいなところでも、どんどんこの辺が進化していくと現実的になっていきそうですよね。
ちょっと期待が非常に高まるなというと、まだ発展途上ではあるので。
もう一つ、いわゆるエージェントっていうところで、興味というか、よく今週出てきたのがDevyn、多分読み方合ってると思うんですけど、というソフトウェアかな、が出ましたよと。
これ何かというと、ソフトウェアを開発してくれる超便利なエージェントということで、これを作りたいっていうと、それをもとにタスクを出して、それ分解して、実行して、エラーが起きたら直して、修正して、デプロイして、動くようにするみたいなもので、今までもいくつか似たようなものはあったんですが、
このDevynっていうもの、実際の動かしている動画を見た限りでは、かなりの精度で、最終的な成果物の完了まで動かしてくれる、非常に高度なエージェントだなというところで注目を集めておりましたね。
そうですね。ちょうど去年の末ぐらいにGitHubがGitHubコパイロットワークスペースっていうので、こういう形で何かこんなソフトウェアを作りたいっていうと、エージェントの場合はそういう指示をもとに、例えばタスクバラシっていうどういう手段を持っていくと、そういうソフトウェアって作れるんだっけっていうところから始まって、自分でソースコードを書いてみたいなところをやっていくよっていうデモで、そのGitHubもやっていたんですけど、今回のところはGitHub以外のところの会社がそれをやったり、その中身だと、
例えばリードミニオンでどっかの設定とかを行って、ごにょごにょしてとかっていうところまで自動でやってくれるっていうところもあって、本当にこの辺がどんどんどんどん進化していくと、自分でソフトウェアを書かなくてもある程度のソフトウェアだったら簡単、とりわけ簡単なものだったら作れてしまうみたいな未来がすぐ来そうだなみたいなところを思わせるような動画で非常に話題になってましたね。
正直今までも似たようなものがあって、ただ最終的に完成まで築けることっていうのはなかなか難しかったりしていて、実際この新しいものもどこまで成功率が高いのか、クオリティがどうなのかっていうのはあるんですが、ちゃんと技術というか取り組みが進んでいっているなっていうのがあって、非常に興味深いなと思いながら見ているところですね。
今日はこれ次が最後なので、ちょっとあまりパッとしない内容って言っちゃうところなんですけど、今週なんでかですね、AI、特に大規模言語モデルに関する最適な情報を得るためのラグっていう手法とか、ファインチューニングっていう手法があるんですけど、
検証記事みたいなのがたまたまなのか、複数あって取り上げられていたという感じですね。
ここに関してはそんなに見新しいものはないので、興味があればまた確認いただければなと思います。
今週結構しゃべったんですが、実はまだまだ気になるニュースはあったんですが、細かいところですね。AIの集約したもので言うとこれぐらいなので、今週はこれにてニュースに話は終わりたいと思います。またAIニュースの配信続けていきますので、よかったら次も聞いていただければなと思います。では締めの言葉で終わりたいと思います。
それでは次回の放送お楽しみに。バイバイ。
18:03

コメント

スクロール