はい、どうもDMM.comの亀山です。亀っちの部屋ラジオ始まります。
サブMCの高橋です。今週もよろしくお願いいたします。
ゲストをお呼びします。前回に引き続き、東京大学教授の松尾豊さんです。
よろしくお願いします。
はい、よろしくお願いします。
はい、どうも。前回はネホリホルショーバニーっぽい形で聞きましたけど。
すごい、なんかガチで気になってることいっぱい聞いてるんだろうなっていうのが伝わってきました。
いやいや、松尾さんはあちこち広域とか川上さんとか、話してるの聞いてたけども。
なんかサイクパス同士の未来を語ってたけども。
そうそう。今回はちょっと身近なあたりで、聞いてる人は経営者とかで、サラリーマンの人多いんで。
もうちょっと哲学的な部分からちょっと俗っぽいところに行こうかなと思いました。
本当にビジネスの話を聞いてましたね。
ちょっと素朴な質問で、AI時代っていうのは結局古い情報しかないって聞いたんだけども、それはなんでですか?
それはですね、データセットを作るのが大変なのと、学習に時間がかかるからですね。
例えば今、GPT-3とか4とか、あれWebのデータで学習してまして、あと本とかも入ってるんですけど、Webがやっぱりボリューム的にはかなり大きいんですよね。
このWebのクロールのデータは集めて、それをちゃんといらないところを取り除いて、ある程度きれいにして学習できるようにしてるということなんですけど、
やっぱりそれを新しい情報をクロールして、それをまた整形してデータセットに加えるっていうのはちょっと手間なので、Googleみたいな頭あったらすぐできちゃうと思いますけど、それを学習用に整備するのが少し大変っていうのが一つと。
あとGPT-3.5なりGPT-4なりって、やっぱり学習させるのに何週間とか何ヶ月とかかかるんですよね。その間ずっとGPを待ちっぱなしなんですね。
なので、そこでもまたタイムラグが出ちゃうという感じで、そんなにバッチで毎日アップデートできますみたいな感じじゃないので、やっぱり何ヶ月とか1年2年っていうのは遅れちゃうっていうのはありますね。
なんかパッと聞いたらすぐ答えてくれるから、もうあっちこっちインターネットバーッと見に行ってるのかと思ったけど、やっぱりデータを身にかすまでにちゃんと形を整えないと見れないってことですね。
そうです。学習させる際にはもうあらかじめクロールしておいて、整形して使うっていうことですね。
Bingとかは検索結果をプロンプトに入れて、それで答えるようになってるので、新しい情報も分かった上で答えてくれますけど、元のLLM自体には新しい情報が入ってないっていうそんな感じです。
なるほど。じゃあそこに時間かかるなら、例えば今日の天気予報も加えたデータが欲しいと思ったときは、それはもう検索で引っ張ってくるのと、またって表現?
RAGって言いまして、Retrieval Augmented Generationって言うんですけど、例えば今日の天気教えてってBingとかで言うと何が起きるかっていうと、今日の天気で検索するんですね、まず。検索すると気象庁のページとかYahooのページとかそういうのがヒットしてくるので、その内容を読み込んでプロンプトに入れちゃうんですね。
プロンプトに全部入れちゃって、その上で今日の天気は何?ってこれが質問で答えは?ってやると、答えは今日だったら曇りですとか晴れですとか、そういうのを答えてくれるっていう、そんな感じの仕組みですね。
なるほど。じゃあちょっと混ざって情報の機能を使って表現する?
じゃあ見た側からしたら、いかにもそれなりに答えてくれたような感じで。
そうですそうです。
そういうぽく言ってくれるんですね。
人間で言うと、記憶してるわけじゃないけど、とりあえず今から質問くるからこの資料読み込んどいてって言って資料渡されて、うーんって読み込みましたと言うあとに質問すると、一応読み込んだ内容は答えられるようになってるっていう、そんな感じです。
なるほどね。じゃあ今までの過去の情報も含めた中に今のやつちょっと加えて。
そうです。
どうなんですか、日本自体。でも今、こないだの中でこれを見たら著作権に関しては日本ってちょっと緩めじゃないですか、そのAIが読み込んでいいっていうのは。
なんかAI開発に関してはやっぱり著作権が30条の4っていうのがあって、それでAI等の情報解析を用いる場合には、この著作権が及ばないっていうか、使っていいってことになってるわけですけど、
それは開発上はとてもやりやすいことなんですよね。
ただ、いろいろと気を使わないといけないことはあって、大きく画像と言語と生成AIを2つに分けられるんですけど、画像の側がやっぱりちょっと顕著でして、
日本ってクリエイターの方が多いので、クリエイターの方が自分たちの作品が学習されて似たようなものを作られるっていうのに対して、やっぱりすごくそれが良くないんじゃないかっていうことをおっしゃってて。
その通りなんですけど、そこら辺の画像コンテンツ系に関してどういう対応していったらいいのかっていうのは結構重要な問題だと思いますね。
言語のほうはまだましでというか、画像ほどではないんですけど、もちろんいろんな作家さんとかおられるんで、そういう問題もありますが、活用の幅がすごく大きいので、どんどんいろんな形で業務効率に使っていくっていうのはやっていったほうがいいと思いますけど。
画像のほうはちょっといろいろと考えないといけないことが多いなという気がしますね。
今から法の改正もどんどん始まるんでしょうけど、原点だとなんとなく聞いて話したと、海外に比べると日本のほうが読み込んでよいと。
日本でそういった開発しようかっていう動きもあるんですか?
少なくとも海外のメディアではそういうふうにかなり出てまして、有名になってます。日本のその法律はAIの環境に非常に適してるっていうのが海外のメディアでも相当出てるので、
直接の関係があるではないと思いますけど、
ディープウェルのですね、翻訳ですけど、それドイツが本社なんですが、日本にも開発拠点を送ってこの前発表してまして、そういうふうに言うと、
現時点の法律的には、日本はむしろ海外からのAIの投資対象というか、地域的になりやすい国であるというふうに考えております。
そうなんです。そういうふうな戦略を取るっていうこともあるとは思います。つまり、AIの開発拠点を日本のメディアが持っている国であるというふうに考えております。
そうなんです。そういうふうな戦略を取るっていうこともあるとは思います。つまり、AIの開発拠点をできるだけ日本に置いてもらって、日本の方を雇用してもらい、日本のデータセンターを使ってねと、そういうふうにしていくっていうのも戦略としてはあると思います。
ただ、やっぱりさっきのクリエイターの方の問題とか、あと今、アメリカとヨーロッパがそれぞれ、アメリカは自主規制の形で、ヨーロッパは結構強い国の規制の形で、全体のGDPRのような形で規制を強めようとしていて、
その中で日本だけがちょっとそれと違うポジションを取るっていうのはやっぱりやりにくいんですよね。今、G7で広島AIプロセスっていうので、日本がリーダーシップを取っていかないといけないという状況にもあるので、日本だけ変わったことをやるっていうのはちょっとやりにくいので、
世界の動きの中で、ちゃんとバランスを取っていくっていうふうにやる必要があるんじゃないかっていう気はしますね。
その辺は、そこの会議ではなんとなくうちだけ好きにやりますというわけにはいかないって感じになります。
そうなんです。何も気にしないでいいんだったらそういうと思うんですよ。ありなんじゃないかと思うんですけど、やっぱりいろいろと気にしないといけないことがたくさんあるんですよね。
中国とかどうなんですか、今。
中国は多分独自でやるじゃないですかね。既に国内で開発力がすごくあってレベルがすごく高いですと。
LLMに関しては中国の思想に反しないものっていうふうなことが既に言われていて、国の管理がすごく強いとは思いますね。
国際的なルールに乗ってくるかどうかっていうのはちょっとわかんないっていう感じですね。
でも中国の場合だったら、そこは前向きに動いてるけど、国には逆らうなっていう基本原稿が入ってるわけですね。
そうですね。レベルがめっちゃ高いと思います。
最近ウェブスリーとかもアメリカがぐちゃぐちゃってなったので、日本は逆に逆を見たりしたことがあったんですけど。
意外とそっちの分野は、え、日本もしかしてこれから未来が可能性あるの?みたいな。
思ったりするんですけど。意外とまたすぐ一気に政治も変わるのかなと。反対に思ったりするんですけど。
いろいろと考えないといけないことがあって大変だなという感じですね。
とりあえず何か目先、これやっといたらみたいなのあります?
なんかですね、ChatGPTとかステップディフィジョンとか、セセアイまず試してみるっていうのが一つで、
ChatGPTとか特にですね、文章を書くときとか、メール書くときとか、文量を増やすのにすごい使えるんですよね。
あとブレストするときに、自分一人でChatGPTとブレストして、どんどん考えを広げるとかですね、そういうのもできて、そういうのをぜひやってほしいのと、
あともう一個は、もしプログラムちょっとでもできる方はChatGPTのAPIを使ってみてほしいですね。
これすごい簡単ですし、APIで何か呼び出すだけで答えが返ってくるんですが、
プロンプトの書き方変えると答えの内容とか質問変わって、プログラミングしてるのか日本語をいじってるのか、
だんだんよく分かんなくなってくるんですけど、それがすごい新しい体験なんですよね。
APIさえ作れれば、これアプリにしたければアプリにしたらいいし、Webのサービスにしたければサービスにしたらいいし、
いろいろと発展系があるんですけど、僕が思うに一番簡単で一番面白いプログラミングって感じなんですよ、今までの中で。
こんなに簡単に、こんなに結果がすぐ出ることってあんまなくてですね。
ぜひそういうのやってもらえるといいかなと思います。
楽しいよと、そこは。
楽しいです。めちゃめちゃ楽しいですね。
プログラマーじゃそこで楽しめと。
一般の会社に企画書を出す人間は、上司に大量に書けって言ったときに、内容を膨らますにはちょうどよいと。
そうなんですよ。膨らませるには。
もし仕事をやってる気にさせて、仕事はこなしておいて裏で勉強しろとか。
それが手っ取り早い感じですか、とりあえず。
どうですか、学生とかも卒論とかばんばん使ってきてます?
あんまりそういうふうには言わないですけど、使ってるんでしょうねっていうのと。
うちはやっぱりAIの研究してるので、そういうLLM自体の研究とかもいろいろやってて。
例えば面白いのが、LLMに自分の答えが正しいかどうかを推定させるっていうのがあるんですね。
そうすると、自信がなく答えてることもあるんですよ。自信があって答えてることもあって。
それがですね、GPT-3よりGPT-3.5、GPT-4のほうが賢いわけですけど、自分が賢ければ賢いほど、やっぱり答えの正しさの推定も正しくなるんですね。
それから問題がですね、自分が答えてる問題が簡単であればあるほど、答えの推定の精度、正しいかどうかの推定の精度も上がってくるんですよ。
なので自分が賢くて問題が簡単だったら、これは合ってるわとかこれは間違ってるかってほぼ当たるんだけど、
自分があんまり頭良くなくて問題も難しいと、これが合ってそうかどうかすらわからないっていう風になるっていうですね。
はいはい。
まあなんか人間もあるよねみたいな。
確かに。確かにわかりますよ。僕はプログラム書けないから、プログラマにこれやってって言ってたんだけど、これうまくできてるのかよくわかってないです。
そうなんですよ。そういう点で頭悪いとね、ほんと困るんですよ。