1. AI未来話
  2. #2-2 拡散モデルによるテキス..
2025-06-26 20:14

#2-2 拡散モデルによるテキスト生成とは何か!

spotify apple_podcasts

毎週木曜朝7時、AIメディアを運営する共同経営者の2人が生成AIのメガトレンドや論文、ユースケースを30分で解説。経営者視点だからこそ分かるAIの未来を「ながら聞き」でキャッチできるPodcastです。

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
⭐️2ndシーズンへのご意見はこちらへ⭐️

https://forms.gle/MLGTqJFajmJaSVhs6

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️AIメディア MiraLab AI

⁠⁠https://miralab.co.jp/media/⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️番組へのお便り↓

⁠https://forms.gle/j8sJ1v1hH5JSaZm97⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️記事で読みたい人はこちらから↓

⁠https://miralab.co.jp/media/category/special_feature/⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️おすすめAIガジェット #PR

最強ガジェット「PLAUD NotePin」

詳しい記事はこちらから↓↓

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️公式X

AI未来話

⁠https://x.com/ai_miraitalk⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️Podcastリンク

Spotify

⁠https://open.spotify.com/show/4YQI4JvX83mURM6xywKn5w?si=34b96be128584bad⁠

Apple

https://podcasts.apple.com/jp/podcast/ai未来話/id1733462439?uo=2⁠

LISTEN

⁠https://listen.style/p/aifuturetalk⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

サマリー

拡散モデルによるテキスト生成の可能性と課題について語られます。特に、Google DeepMindが開発したGemini Diffusionの背景や自己回帰モデルとの相互補完について深掘りされます。また、拡散モデルによるテキスト生成の可能性や自己回帰型モデルとの共存について議論されます。これによって、今後のAIテクノロジーの進展とその影響についての理解が深まることが期待されます。

00:03
AIメディア、MiraLab AIのたつけです。
同じくMiraLab AIの平岡です。
この番組は、AIの最新トークを基に未来を考察するポッドキャスト番組です。
それでは本日のトークテーマをお願いします。
拡散モデルの基本概念
拡散モデルによるテキスト生成とは何か。
拡散モデルのテキスト生成。
先日ね、Google I.O.で紹介されたGemini Diffusionが話題になったと思うんですけど。
やってましたね。
なのでね、このテキスト生成で拡散モデルが使われるっていうのって何でなんだろうとか。
どんなメリット・デメリットがあるんだろうとかって、結構みんな疑問に思ってる方多いと思うんですよ。
確かにね。そもそも拡散モデルって何?っていう方もいるかもしれないですね。
そうそうそう。これは個人的に僕も疑問に思ったところがあったので。
この辺りをですね、歴史的な背景とか、現在の研究具合とか、製品化の流れとか。
その辺りをちょっと調べましたので、それをちょっとご紹介していくということで。
やっぱね、この拡散モデルの延長線上にはですね、今のそのGPTモデルの自己回帰型モデルって言うんですけど。
これと拡散モデルが相互補完的に補っていくような未来があるんじゃないかなっていう風に個人的には予想しているところがありますので。
じゃあ今後もしかしたら主流になるモデルかもしれないと。
かもしれない。
じゃあ知っといた方がいいかもしれないですね。
そうですね。なのでちょっとその辺りをご紹介していこうかなという風に思います。
なるほど。面白そうですね。
ボツになったんですけど、Google IEO会で僕がGoogle IEOで発表された技術の中で一番すごかったなって思った技術がディフュージョンモデルなんですよね。
それこそ。だから個人的にこのディフュージョンモデルって超期待してて、僕。すんごい楽しみです。
そうですね。
技術の背景を知るの。だから将来こういうことになると思うよみたいな時にちょっとボツになったらもったいないんで。
その辺の話をまずこんでいただければと思います。
優しい。
なるほどですね。
じゃあまずそもそも拡散モデルとはということで、データに徐々にノイズを加えていき、そのノイズを取り去って元のデータを復元するっていう過程を学習することで新しいデータを生成するモデル。これが拡散モデルなんですよ。
このアイディアはですね画像生成で大きな成功を収めて、やっぱり有名どころで言うとステイビルディフュージョンっていうのはこの拡散モデルを使った画像生成なんですけど、真っ白なノイズの画像から段々とノイズを取り除いていき美しい画像を描き出すという、そういうモデルなわけですよ。
じゃあこれテキストの場合どうなのかっていうところで、実はテキストへの応用って結構一筋なでは行かないところがあって、文章は画像のピクセルとは違って理算的散らばった単語の列なんだよね。
同じようにそのノイズを加えるっていうのが難しいし、さらに言語には文法とか文脈みたいな長い範囲の依存関係があるじゃん。だから長らくテキスト生成っていうのは自己回帰モデルっていう、要は今のGPTみたいなものだよね。
共和っていう言葉があったら、それを共和に連想されるもので次はこの言葉が出るだろうって予測して天気、天気だったら晴れみたいな感じで予測して文章を繋いでいくっていう自己回帰モデルが主流になってるわけですよ。
マジカルバナナってことですよね。
それについて一本分詳しくしゃべってもらっていいですか。
いや、大丈夫です。すいませんでした。
まあそうね、手前の言葉に連想してといえばっていう続いていくってことだよね。
はい。
うまい例えしますね。
テキスト生成の課題と拡散モデルの利点
それでも近年この拡散モデルをテキストに応用するっていう動きが活発になった背景には、この自己回帰モデルの課題を克服したいっていう思いがあるわけですよ。
チャットGPTみたいな自己回帰モデルって大規模モデルほど応答生成に時間がかかるんだよね。
順番に生成していくんでね。長い問題とかは一つ一つ続いていくのでユーザーの待ち時間も長くなるし、
あとは一度出力した単語って後の単語選択に影響を与えるじゃん。
そうね。
今日の天気は晴れでっていう文章を打ったらもうそれに引っ張られた文章しか続いて生成できないわけよ。
途中で辻褄が合わなくなって後戻りして修正するってことができない。
確かに。分岐がどんどん少なくなってくるね。
そうそうそう。これに対して拡散モデルだったら文章全体を並列的に扱えるから、Gemini Diffusionでもそうだったけど、そもそも生成速度が劇的に速い。
途中の誤りも後のステップで上書き修正して、より全体的に整合性の取れた出力っていうのが期待できるわけよ。
なるほどね。
だからGemini Diffusion出したGoogle DeepMindも、拡散モデルによってユーザーにより高い制御性と創造性、そして高速なテキスト生成を提供できるというふうに言ってるわけですよ。
じゃあやっぱさDiffusionモデルって速くてすごいってみんな思ってたと思うんですけど、だけじゃなくて並列的により自由に使えるっていう感じなんだね。
そうそうそう並列的に自由に整合性が取れるっていうのが大きい。
だから当然この拡散モデルでテキスト生成するってことにも課題があって、まずテキストは単語だから徐々にノイズを足すっていう方法がそのまま使えないわけですよ、画像のように。
そうですね、なんかよくわかんないですもんね、ノイズを加えるって。
そう、だから例えばマスク、単語を隠したりとかその単語を痴漢したりとかっていう特別なノイズの書き方の工夫が必要と。
これが強すぎると文章の構造が壊れるし、弱すぎると十分な生成ができない。
あとは言語には本質的な順序があるわけよ。
意味の単語の並び方によって決まるけど、この自己回帰モデルっていうのはこの順序を沿って生成するじゃん。
だけど拡散モデルは一気に生成しようってすることによってそのテキストの順序とのミスマッチが起こりやすくなるんだよね。
そうですよね。
だから文の流れとか論理性をうまく保てない可能性がある。
これをもっとちゃんとやろうっていう研究も進んでるんだけど、それをすることによって拡散モデル特有の速さが失われる可能性があるわけよ。
やっぱトレードオフになっちゃうから。
そうだ、ここがトレードオフになってるっていう。
あとは品質面でも当然課題があって、最新のテキスト生成の拡散モデルでもGPT-4みたいな自己回帰モデルの最先端モデルにはまだ及ばないっていうのが現実。
だからテキスト生成だったら普通にGPT-Kの自己回帰モデルの方がいい出力出るよねっていう状態になっちゃってるところはある。
まあそうですよね。
そう。あと計算効率の面でも課題があって、拡散モデルは生成時に何十回も反復計算を行うから、自己回帰モデルよりも計算資源多く必要とするのよ。
そうなのか。なるほど。
そう。だから特に規模が大きくなればなるほど計算コストが増えるから扱うのが難しくなると。
じゃあこれさ、間違えたってなって、もう一回生成してってなったら、1からまた全部生成するみたいなことになるわけだ。
そうだね。全部を整合性取んなきゃいけないわけだからね。拡散させるから。
なるほどね。
そうそう。
だからもうトークンめちゃめちゃ使っちゃうわけだ。
そう。だから生成のステップの数とか品質速度みたいなものが全てトレードオフになってて。
なるほど。難しいね。
だからステップ減らすと早いんだけど、その分品質が落ちちゃうみたいな。
当たり前なんだけどねって感じもする。
これが問題になってきているというところですね。
最近の研究と商用化の進展
じゃあ次にですね、この拡散モデルをテキスト生成に応用して研究しようとした背景というかその流れみたいなところをちょっと説明しようかなと思うんですけど、
これ大体2020年前後にこういった研究が始まったんだけど、これは2020年にジョナサン・ホーっていう方が提案したDDPMっていう、
これが要はその拡散モデルのノイズをかけて、それをノイズを取り払うっていう一番基礎の技術。
これでやっぱり画像生成が成功を求めたことによって、これテキスト分野でも使えるんじゃないかっていう風に言い始めたのがまた2020年ぐらいなんだよ。
なるほど。
そう。で2021年ぐらいに実際に研究が本格的に始まると。
このジョナサン・ホーっていう方がどういう方かというと、やはりですね、Googleの研究者なわけなんですけど、
ジェイコブ・オースティンとジョナサン・ホーっていう方々がD3PMっていう研究を行ったわけですよ。
D3PM。
これがテキストデータに拡散モデルを初めて使った研究なんですけど、
これねノイズの入れ方、どういうノイズを入れるかによってやっぱりその生成される出力の結果が変わってくるわけよ。
ノイズにも種類があるんですか。
それでも種類がある。さっき言ったみたいに画像と違って、要はテキストってノイズの入れ方がすごく難しいし、
どうノイズを入れるかによって出力結果が大きく変わってしまうと。
それを研究したのがこのD3PM。
でノイズのつける方法に今回のこの研究で出たのは3つの種類があって、
ガウスノイズと一様ノイズと吸収状態ノイズっていう3つのノイズの仕方があるわけよ。
なるほど。
ガウスノイズっていうのは似た意味の単語に置き換える。
なるほど。
一様ノイズはランダムな単語に変える。
で吸収状態ノイズは特殊な記号にするっていうのを順番にやることによって、
最終的に完全なマスクだらけ記号の状態に変えるっていう。
なんかもう暗号化されてるみたいな感じだね。
そう暗号化されてるみたいな状態。
要はこの方法をやることによって出力が良くなったっていう研究だったわけよ。
不思議だね。
不思議だねそれに関してはね。
不思議としか言いようがない。
なんでみたいな。
で2022年に今度スタンフォード大学のシアン・リサリさんとパーシー・リャン教授がやった研究で、
これがディフュージョンLMっていう新しい拡散モデルの提案をしたわけですよ。
でこれは従来の方法だと単語を直接置き換えてノイズを加えるっていうのが難しかったので、
一度単語を連続した数値、ベクトルに変換してからノイズを加えるっていう工夫をしたわけよね。
でこれによって途中の生成プロセスで細かな調整ができるようになったから、
もっとフォーマルな表現にしようとか、明るい雰囲気の文章にしようとか、
そういったことを指定することができるようになったと。
で本当こういうのを調べた時にさ、なんかこう点と点が繋がるじゃないけどさ、
前にさAI祭かなんか行った時にさ、スタビリティ社の方がさ、今そのディフュージョンLMでさ文章生成にも挑戦しててみたいな話してたの覚えてる?
全然覚えてない。
覚えてない?でなんかそのディフュージョンLMっていうので頑張ってるみたいなこと言ってて、
でも本当当時は我々もそこまで尊敬の知識とかなかったから、なんかそうなんだぐらいしか感じなかったけど、
で要はこういう拡散モデルの文章生成の話をされてたってことだよね。
なるほど。
そうそうそう、その研究が進んでるっていうのはそういうこと。個人的にはすごく点とつながって面白かった。
なるほどね。
そうそう。で他にも香港大学でディフューシークっていうモデルの発表もあって。
ディープシークみたいな。
ディープシークみたいなディフューシークですね。これは機械翻訳とか文章の要約とか、
入力された文章を別の文章に変換するタスクを拡散モデルで応用した試みなんだけど、
これは入力された文章を固定したまま出力分にだけノイズを加えるのよ。
だから元の文章の意味を保ったまま新しい文章を生成するっていうことに成功した。
だから翻訳とか要約とかそういう元の文章の意味を変えちゃいけないっていうものに活用できたっていう事例。
なるほどね。
そうそういうのがあって、研究がずっと進んできたわけだけど、これがやっぱ商用利用というかさ、製品化されるタイミングもあるわけじゃん。
実は初めてこの拡散モデルのテキスト生成を製品化したのはマーキュリーっていうサービスなのよ。
これが2025年2月、なのでGemini Diffusionちょっと前にこれは製品化されてる。
これが世界初の商用規模の拡散型言語モデルっていうことですね。
これは実際に自社サービスとかにも組み込まれたりとかしてるんだけど、従来のモデルと比べて約10倍もの高速でテキスト生成ができると。
NVIDIAのH100 GPU上で1秒あたり1000トークン以上生成できるということで、これ実際にGemini Diffusionの場合には1秒間に1479トークン生成できるって言ってるんで、
Gemini Diffusionにもちょっと生成数は少ないけども、同じ規模ぐらいのものを作ってるっていうことだよね。
その後5月にGemini Diffusionが発表されたわけよ。
拡散モデルの商用利用
そしたらそういう初めての商用利用ができて、Googleみたいなビッグテックが着手してみたいな流れが今年に起きてるから、ここから拡散モデルっていうのはどんどん増えていく可能性があるよね。
なるほどね。ほんとこれからな感じですね。
もうまさしくこれから。
じゃあこの拡散モデルが今後これから増えてきたときに、現状の自己回帰型の従来のモデルGPTみたいなものとどういう住み分けになるのかっていうのが気になるところだと思うのよ。
確かにやれること一緒だしね。
そうそうそう。おそらくそれぞれ得意分野で住み分け共存していくんじゃないかなというふうには思ってて、この拡散モデルに関しては高度生成とか数学問題みたいな構造的で一貫性が要求されるタスクでは高い性能を示すんだけど、
百科事典みたいな知識問題とか、あとは高度な常識推論みたいな領域だと、やっぱり学習データの蓄積とか最適化がさ、自己回帰型の方が進んでるからやっぱりそこが劣るよねっていうふうに見られてるわけよ。
なるほど。
そう。だから文章全体の整合性とか完全性が重要なタスクだと拡散モデル。幅広い知識と文脈理解が問われるモデルには自己回帰モデル。
で、なるとやっぱりあのチャットGPTって今の自己回帰型モデルの最高のUI、UXなんだなっていうのが改めて感じるというか、やっぱりその文脈を理解して幅広い知識で何でも答えるっていうスタイルじゃんチャット形式が。
そうね。
やっぱり自己回帰型にやっぱり一番適したスタイルだよね。
確かに。
今後例えばその文章全体の一つのこの完成された文章の整合性を取るために文章をドンって作るみたいなもので、今ってチャットGPTとかでそれ文章出させたりとかしてるじゃん。
でもそういう使い方はあんまり実は向いてない可能性があって。
確かにね。
そう、それだとその拡散モデルの方がいいかもしれないよねっていう。で、やっぱ今後例えばカーソルみたいな、ああいうものには拡散モデルの方が主流になっていく可能性が高い。
へえ。
やっぱそのコード生成とか一貫性を保ってるっていうのがあるし、あとやっぱその巻き戻して訂正するってことができるじゃん。
ああ、そうね。
そう、だからザーって出したコードで、今のものだと手前で出したコードに引っ張られて、それに合わせた文脈でずっと出てきちゃうんだけど。
ああ、なるほど。
拡散モデルだったら部分的に手前のものを修正するとかってことができるから。
なるほど。
だからそういうコード生成とかカーソルみたいなものには拡散モデルの方が標準搭載されるみたいな可能性は全然あり得る。
うーん、面白いね。
個人的にこれは予想なんだけど、やっぱり今も推論モデルと通常モデルのハイブリッド型みたいなのが出てきてるじゃん。
そうね。
同じように拡散と自己回帰のハイブリッド型出てくるんじゃないかなと思ってて。
ああ、確かに。
そう。例えば自己回帰型でバーって文章生成するじゃん。
リライトしたりとか文章修正したりするときに一部の文章を残して他を変えたりとかっていう使い方するときに、今度拡散型でその文章をフワーって修正していくみたいな。
なるほどね。
そう使い方とか。そういう感じの使い分け、進み分けみたいな形に将来的にはなっていくんじゃないのかなっていう風に個人的には思ってますね。
なるほどね。確かに。トレードオフになっちゃうから結局。一つのモデルで全部こなそうって無理だよねっていうところから
未来のテキスト生成技術
そうそうそう。
特化したモデルたちをくっつけることによって最高の出力を出すっていう発想だよね。
そう。だからGPT-5みたいな段階でどこまでその拡散モデルが入ってくるかとかまではちょっとわかんないけど、オープンエイからもそのうち出てきそうだよね。
まあね、そりゃそうだろうね。
だからその指示によって最適なものを選んで自己回帰で文章作ってくれたりとか、拡散型で一気に文章作ってくれたりとかみたいな
っていうのを判断するみたいなAIの司令塔みたいな役名が出てくるっていうのも近い未来全然想像できるんじゃないかなっていう感じですね。
確かに。なんかめちゃめちゃ今って霊明期なんだな、まだまだってちょっと思いますね。
いやほんと霊明期だなって思うよね。前回のヒラの論文のやつなんかもそうだけど、逆に言うとまだまだ水路モデルって伸びしろあるんだと思うしね。
そうですね、ほんとに。
前回ねヒラボツになっちゃったけどさ、アイオンの時にやっぱジェミニディフュージョンすごいって言ってたじゃん。
ヒラ的にはそこが一番だったわけだもんね。
そうですね。あの時なんですごいって話したかっていうと、ディフュージョンモデルってやっぱそのスピードがすごかったっていうのももちろんあるんですけど、
あれが1000になった時、この技術ってそもそも僕点だと思ってるので、その点と点が1000になった時にディフュージョンモデルっていうのはめちゃめちゃインパクト高そうだなと思ったんですよね。
それで第一位にしたんだけど、あれの行く先ってユーザーが欲しいと思ったものを一瞬で生成できる能力だと僕は思ったんですよね。
だからある情報を動画で見たいって言ったら、はい動画ですみたいな。
ドラえもんで言うとこのこれ食べたいって言ったらチャーハンとかラーメンとかバーンって一瞬で出てくるじゃないですか。
なんて言うんだろうあれ。
取り寄せバッグ。
取り寄せバッグだ。
そうだよね。
すごいよく覚えてるね。
ドラえもん大好きなんで。
なるほどね。
ドラえもんの取り寄せバッグみたいな感じをちょっとイメージしたんですよね。
あれ欲しいパーンはいこれみたいな。
っていう感じ。
なるほどね。
で、すげえと思ったんです。
でもやっぱりさっきのハイブリッドじゃないけどさ、チャットGPTのUIでチャット形式で自己回帰でやり取りをして、
じゃあこれこれこれについて今まで話した内容で文章出してって言ったら拡散モデルでポンみたいな。
そうそうそう。
っていう感じの可能性はあるよね。
そうですね。それができちゃうとあらゆるサービス変わっちゃうなって思って、ものすごいインパクトあるだろうなって感じるんですよね。
確かにね。
だから多分拡散モデルだけでは到達できないと思うんですけど、今言ったようにいろんなモデルを掛け合わせて最高の出力を目指すっていうのはやっぱりいいアプローチなんだろうなと思いますよね。
うん。
はい、それではエンディングでございます。
はい。
今日の話を総括するとどういうことなんですかねこれ。
今日の話を総括すると、自己回帰型にも自己回帰型のメリットデメリットがあって、それを解消するために全然違うアプローチの生成方法が出てきてる。
で、おそらくこれは2つがともに重ね合うことによって相互補完的な生成ができるような未来がおそらく待ってるんじゃないのかなっていう部分ですね。
なるほど。
だから今現時点の発展っていうのはまだまだ黎明期であって、まだ全然伸びしろあるぞと。
全然伸びしろあるし、やっぱそのChatGPTっていうのがUIとして卓越しすぎてるからこそ結構完成形に感じる。
あれは自己回帰型モデルの完成形であって、そもそも拡散モデルっていう全然違う出力方法で考えたときに果たしてあれが正しいのかっていう視点もあるわけだからね。
確かに。
だからまだまだ全然違うスタイルっていうのは出てくる可能性あり得る。
なるほどですね。じゃあまだまだ黎明期というところでこれからの拡散型モデルに期待をしていきたいですねというところですね。
はい。
それでは番組の感想をお待ちしています。感想はXでハッシュタグAI未来話でぜひ投稿してください。
Spotifyのコメント機能や概要欄に記載のお便りフォームからもお待ちしています。
またお聞きのPodcastアプリでAI未来話の番組フォローとレビューもお待ちしています。
現在Appleテクノロジーランキングで第6位でございます。応援のほどよろしくお願いします。
来週も今日朝7時1分にお届けします。通勤通学の30分にAIの最新トレンドをキャッチアップしていきましょう。
それでは本日もありがとうございました。
ありがとうございました。
20:14

コメント

スクロール