1. おちつきAIラジオ
  2. Nano Banana超え?Seedream4.0..
2025-10-10 57:39

Nano Banana超え?Seedream4.0で驚くべきポイントは言語間距離。(ep.6)

spotify apple_podcasts

「Nano Bananaの次はこのAIだ!!」そんな驚き熱狂の渦中にある画像生成AI「Seedream4.0(シードリーム)」。でも本当にNano Bananaを超えるほど革新的なのかなぁ?実際に使ってみたかねりんは「正直、よく分からなかった…」とぶっちゃけます。しかししぶちょーは「ある理由で、Nano Bananaよりも断然使いやすい!」と語ります。その使いやすさの秘密は、開発元であるTikTok運営会社と、日本語と中国語の「言語間距離」という意外な関係に隠されていたのです。さらに今回は、画像生成AIの仕組みそのものにも迫ります。なぜ、意味不明なノイズから鮮明な画像が生まれるのか?その魔法の正体「拡散モデル」についても徹底解説。最新AIへの驚きに疲れたあなたへ。Seedream4.0の本当のすごさと、その技術的背景を理解して、確かな「おちつき」を手にしてください。


【目次】

() オープニング

() 今回のテーマ「Nano Bananaを超えた?Seedream4.0」

() AI業界で繰り返される「逆張り驚き」という現象とは?

() AI素人かねりんの正直な感想「使ってみたけどよく分からなかった」

() 実はNano Bananaより素直?Seedream4.0が持つ"使いやすさ"の特性

() 開発元はTikTok運営会社!Seedream4.0の歴史を振り返る

() 中国語ネイティブAIの強みとバージョンアップによる進化の過程

() 日本人が使いやすい秘密は「言語間距離」に隠されていた?

() 漢字がカギ?日本語と中国語の意外な関係性とAIの言語理解

() 日本のAI開発の未来は?国産LLMの現在地と期待

() 【AIの仕組み】画像生成AIの魔法の正体「拡散モデル」とは?

() 画像を"壊しながら"学習する?拡散モデルの不思議なプロセス

() 思い通りの画像を作るカギ「条件付き拡散モデル」を解説

() Stable Diffusionが世界を変えた「潜在拡散モデル」の革新性

() 学びのまとめと、知識がもたらす本当の「おちつき」

() エンディング


【今回の放送回に関連するリンク】

・Seedream

https://seed.bytedance.com/en/seedream4_0

・言語間距離

https://www.mamelingual.com/2019/10/23/linguistic-distance/


—----------------------------

【番組の概要】

日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。

★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。

【番組公式ハッシュタグ】

#おちつきAI

【番組公式X】

https://x.com/ochitsuki_AI

【パーソナリティ(MC)】

▼しぶちょー

・AIエンジニア

・技術士(機械部門) 

「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。

情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。

著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」

https://x.com/sibucho_labo

https://voicy.jp/channel/3963

▼かねりん(金田勇太)

・KANERIN Podcast Studios 代表

・一般社団法人 地方WEB3連携協会 理事

「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」

https://x.com/kanerinx

https://voicy.jp/channel/2534

【プロデューサー】

かねりん https://x.com/kanerinx

【サウンド・アーキテクト】

Aviv Haruta https://x.com/oji_pal

【カバーアートデザイン】

UTA https://x.com/uta_dib

【制作/著作】

KANERIN Podcast Studios

--------------------------------------------------

※画像引用元:https://seed.bytedance.com/en/seedream4_0



【各種ポッドキャストスタンドへのリンク】

Spotify

https://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o

Apple Podcas

https://podcasts.apple.com/us/podcast/id1841316430

Amazon Music

https://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/

YouTube

https://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD

LISTEN

https://listen.style/p/ochitsukiai


Summary

このエピソードでは、新しい生成AIサービス「Seedream 4.0」が「Nano Banana」を超えた理由を探ります。特にSeedream 4.0の特徴や使いやすさについて語り、技術的な背景にも触れています。SeaDream 4.0のリリースにより、中国語を基にした日本語の理解度の高さが注目されています。このモデルの特長や技術について深掘りされており、ナノバナナを超える性能が強調されています。また、SeaDream 4.0の言語間距離や中国語との関係について議論が交わされています。ディフュージョンモデルとその画像生成の仕組みについても触れられ、技術革新の進展が語られます。さらに、スティーブルディフュージョンと呼ばれる画像生成技術の基本的な仕組みや、条件付き拡散モデルについて説明されます。特に、写真や文字の生成における技術の発展が、日本語や漢字にどのように影響を与えるかについても論じられています。今回のエピソードでは、日本語のLLMとその成長に対する期待、そして国産技術の重要性について議論されています。

Seedream 4.0の紹介
おちつきAI
おちつきAI
おちつきAI
AIエンジニアのしぶちょーです。
AI素人のかねりんです。
この番組は、日々のAIニュースで驚き疲れたあなたに、一度落ち着いていただいて、ゆっくりじっくり、AIを学ぶ時間をお届けする、そんな番組でございます。
ということで、本日も始まりました、おちつきAIラジオ。早速ね、本題の方に行きたいと思うんですけども。
今回のトピックこちら。
Nano Bananaを超えた?何がすごいの?Seedream4.0でございます。
またなんか、新しいの出てきたね、という感じなんだけども。
また難しい単語が出てきた。初めてのサービス名出てきた。
今日テーマとしてあげるのはですね、今海外を騒がしているSeedream4.0というものですね。
これはね、Nano Bananaを、あのNano Bananaを超えたと言われています。
そうだよ。この間驚いてたばっかりなのに驚いてたじゃないよ。落ち着いたばっかりなのに、もう落ち着いてられない。
そう、超えた超えたと言われてるんだけど、これさ、いつものパターンなのね。
いつものパターンなのよ。
個人的にさ、逆張り驚きって呼んでるんだけど、この現象を。
本当にそう、いつも。
どういうこと?逆張り?
逆張り驚きなのよ。すごい奴がいっつも出てくるのね。
うわ、これ世界変えるぜっていうすごいAIサービスがバーンて出てくると、
大体その1週間後ぐらいに、あれもすごいけど、まだあれ使ってんの?こっちの方がすごいからみたいな。
なるほどね。
いや、あれすごいって言ってんの、もうちょっと遅れてるよみたいな。今こっちだからね、もうみたいな。
そのすごい奴を超えた奴みたいな奴が驚かれるっていう。これもうずっと歴史として繰り返されてきてること。
もうループなんだ、そんな話。ずっと続いてんだ、それ脈々と。
脈々と続いてます。
で、今回そのナノバナナがドーンて出てきて、その逆張りとして出てきた。逆張りとして出てきてるわけじゃないんだけど、サービスは。
ちょっとそれは失礼なんだけど、逆張りとして。
なんかちょっとね、シードリームが逆張りを狙ってるみたいな風に聞こえちゃうけど、それは違うんだね。
間違った言い忘れ言い忘れちゃったんだけど、逆張り驚きをされてる。
じゃあナノバナナ古い、もうそんなん使ってんの?遅れてるねっていう文脈で驚かれてるシードリーム4.0というサービス。
なるほどね。
これがすごいのかいいのか、どのようにすごいのかっていうのを今日はね、ちょっと解説していこうかなと思います。
使いやすさと特徴
ちょっとね、いまいち分かりにくかったよ、僕は。
これ使った?よね。
使ったんだけど、ちょっとなんかナノバナナの時はね、UIかな、シンプルに使いやすかったし驚けたんだけど、ちょっとなんかね、迷宮入りしそうだった。
なんかね、なんとなくカネリンはそう言うかなって思ってた。
ちょっとやめて、もう想像通りのこと言うやつみたいな。
いや想像通りです、もう台本通りです。
ダメだ。
あのね、この後の僕のセリフも書いてあるんだけど、使ってみてさ、よく分かんなかったでしょっていうのがセリフとして入ってます。
あれ?何?そこまで台本に書かれてる?
書いてます、はい。
だからもうカネリンこのリアクションはね、想定済みなのよ。
マジか。なんかちょっと申し訳なくなってさ、めっちゃこれダメだ、これちゃんと触らないと支部長に怒られる。
一生懸命使おうとしてるけど、多分なんかナノバナー触った後にさ、何を驚いてるか多分分かんないだろうなって思いながらね、泳がせてました。
そうだよね。
多分必要以上のアドバイスはせず、これ使ってみてっていうだけで。
本当に踊らされてる感がすごいんだけどさ。
結局、SeaDream 4.0何かっていうと画像生成AIだね、ナノバナーと一緒で。
テキストから画像を生成できたりとか、画像を入力してまた画像を変換とかね、編集するような形で違う形に画像を変換できたりとか、そういうことができるサービスなんだけど。
ナノバナーより圧倒的にすごいかって言われたら、正直そんな感じではない。
そこまでではない。
ベンチマーク的に言ったらちょっと性能としてはすごくバランスが良くて、ナノバナー同等か同等以上か、すごい競ってる部分だよね。
たださ、それも結局今の生成AIの中で、何だろうな、こう98点を99点にするみたいな、そのすごいレベルの高いところで競り合ってるような感じで。
実際ユーザーにとっては意外とそんなに変わらんと、っていう感じはする。
ベンチマークスコアでちょこちょこ競り合ってるぐらいの性能差。
まあ確かに上なんだけど、まあそのそんなに革命的に変わるかと言われたら変わらない部分はあるのだが。
ただ一つ言えるのは、かなりよくわかんないって言ったんだけど、これちゃんと使っていくととある特性があってさ。
使いやすいの。
使いやすいの?
ナノバナーより。
すごい使いにくいなと思ったけども、俺も情報弱者かなって思いながら自己嫌悪落ちながらイライラしながら使ってたよ。
カネリンが使いにくいと思った理由は、多分ねプラットフォームがいっぱいあるからなのよね。
それ一個あるわ。
結局さ、シードリーム4.0って公式サイト、だからそのシードリームを作ってる会社のサイトからも使えるんだけど、いろいろな画像生成AIの統合プラットフォームみたいのがあるのよ。
いろいろモデル選べて使えますみたいなやつ。
そうそうそうそう。基本的にそういう人気のところで使うっていうのが良くて、良くてというか分かりやすくて、ナノバナーも選択できるし、いろんなモデル切り替えれるよねと。
しかもその統合プラットフォームごとに特性があるもんで、使い方もちょっと違うし、要は分からないし、料金体系も全然違うから、正直訳分からんと。
統合プラットフォームがちょっとなんかね、無料クレジット残りいくつとか書いてあってどんどん減ってく。うわー減ってく、もうどうしようみたいな。
そう、そんな感じで、なかなかシードリーム純粋に使えるというか使えないというか、試せないみたいなところがあって、多分分かりにくかったと思うんだけど。
純粋に使い続けてると、使いやすいのよ。
あのね、ナドバナナより明らかに素直。
ナドバナナはなんかね、こういうふうにしてって言ってもそういうふうにしてくれなかったりとか、こっちの言葉を正しく理解してくれねえなっていう時がある。
なんだけど、シードリームはほとんどこっちの解釈、ちゃんと言葉で伝えれば言ったことやってくれる。
その使いやすさがやっぱね、その今回話題になってるポイント、騒がれてるポイントの一つかなと思う。
意図した通りにやってくれる確率が高いってこと?
Seedreamの歴史と背景
そう、意図した通りにすごく動いてくれる。
なんかいろいろ無茶振りしすぎてさ、なんか30分ぐらい生成されなかったりさ、なんか生成されなかったら逆に生成に失敗したのでクレジット返金しましたとか出てきてさ。
それなんかタイミングが悪かったかもしれないね。
変なこと書きすぎたかもしれない。
シードリーム爆速で有名よ。
なんか早いって書いてあったから、早いってもう15分ぐらい待ってるけど、おかしいのかなって思いながらさ。
それはね、多分タイミングが悪かったかもしれない。
タイミングもあるんだ。プロンプターあまりにもガチャガチャ書いたら良くないの?あんまり。
いやいいと思うよ。細かく書けば書くほど基本的にはいい。今の生成AIは。
でも挙句の果てに俺が試したのはさ、金曜ロードショーのね、あるじゃん。
おじさん?
画像。おじさんじゃなくてなんかね、ちっちゃい動物がね、でっかい月みたいな、夕日だな。夕日の周りにちっちゃい動物がちょこちょこ歩いてるやつあるんだけど、その夕日を朝日にしてもらったぐらい。
それはできた?
一応できたけど、朝日というかちょっと色合いが夕方じゃなくなった。
あーなるほどね。
なんかすごいもう素人感満載のプロンプトで。
いやいやいや大事大事。でもまあ確かにそれだとナノバナと違いよくわからんよね。
だからいっぱいやるとわかる。
なるほどね。
素直にこっちの言うこと聞いてくれてるなというのがわかるんだけど、まあなんでそんな使いやすいんかっていうところに一個ポイントがあって。
まあそこにちょっと技術的な理由がありそうな感じだったんで、今日はその話をちょっとしようかなと思います。
なんかもうあれだね、そこ掘るんだねっていう話だね今日はじゃあね。
ナノバナで結構十分驚いて落ち着いて、そんなに変わんないんじゃないのっていうところ、実は結構違うんだぜって話?
そう、なんでそんなにナノバナを超えたって思うかっていう部分はちょっと自分の主観もあるんだけど、ちょっとねそこをね色々考察してきたんで、今日はその話をしていこうかなと。
もう散々そわそわさせられたから今日は落ち着かないと本当に寝れない。
そうね、なかなかね。
今日はねちょっとね視点というかまあそういう角度で、まあこういう角度で切るのはなかなかないかなっていう角度で切ってきましたんで。
おーすげー楽しみ。
じゃあまずちょっとSeaDreamの歴史からちょっとお話しすると、このSeaDreamってどの会社が作ってるかって言ったら、中国の大手テック企業のバイトダンスという会社が提供してます。
はいはい。
ここの会社はすごく有名で、まあいわゆるあの動画SNSのTikTokここを運営している会社ですね。
そのTikTokが作ってる会社が作った、生成AIだって言ってすごい話題になってると。
この会社って何?TikTokをそもそも作った会社?
そう。
おーそうなんだ。
TikTokを作った会社。でそこがまあ一緒に、まあ2012年に設立された会社で、まあTikTokですごい稼いでる会社だよね。
はいはいはいはい。
でまあその会社がまあ生成AIにも手をつけているっていう感じなんだけど、SeaDream今回4.0で話題になってるんだけど、当然ナンバリングがあるってことは1があったっていうことね。
そうね。
1っていつ出たかっていうと、2023年の初期。結構前にあるのよこれ。
そうだね。
うん。
そうだね。
すごい前にあるのに、全然話題になってないと。
確かに。
たぶん2013、23年にSeaDream知ってるっていう人ほぼいなかったと思うね。
うんうん。
で、これ性能微妙だったのよすごい。
うんうん。
画像生成AIなんだけど、性能非常に微妙でしたと。
うん。当時ってまだあのステーブルディフュージョンとかなんだっけ、そういうのあったよね。
あ、そうそう。ステーブルディフュージョンもあったし、ミッドジャーニーとかもあった。
あれは2022年の8月とかに出てきてるから。
早いんだ、そんなに。
うん。その1年後ぐらいで、そのLLM上でも、だからChatGPTの中でも画像生成できるようになったよと。
それはダリが動いてるんだけど、ダリとかが動いて、一緒に統合されたよみたいな時期だね。
うんうん。なるほどなるほど。それぐらいの時期にあったんだ。
それぐらいの時期にあったんだけど、性能がめちゃくちゃ微妙で、日本では使われてない。
うんうん。
日本で使えたかどうかもちょっと分かんないんだけど。
中国系なんだよね。中国語とかってこと?が強い。
あ、そう。ちょっと調べてるの?調べた?
いや調べてるっていうか、その会社がね、TikTokのあれだったら。
そこが特徴です。素晴らしいね。中国語に強い画像生成モデルだったのね。
なるほどなるほど。
そこが1つ特徴です。
うんうん。
中国に強いっていうのは、もともとさLLMって英語を中心に学習してるのよ。
ほいほいほいほい。
英語が世の中のテキストの中で一番多いから。
うんうんうん。
で、基本的に最初にね、いろいろ作る上で、LLM作る上で、やっぱり英語を中心に学習していくと。
うん。
っていうので、まぁやっぱり英語に対する理解度がすごい高いんだけど。
うん。
やっぱさ細かいニュアンスってネイティブじゃないとなかなか伝わらなかったりするのね。
うんうん。
だからSeaDreamっていうのは、中国語をベースとして学習した、そういう言語モデルを使って画像生成モデルを作ったと。
うん。
それがSeaDream 1.0だったのね。
なるほどね。
で、2.0になった時に、中国語だけはちょっとやっぱり限界あるよねと。
うん。
SeaDream 4.0のリリース
中国語をすごく学ばせつつ、英語も学ばせてこのバイリンガルにしようということで、中国英語両方学ばせて、そこでこう中国文化の理解度も上がるし、英語も取り入れるからすごいデータ量も多くなって性能が上がってきたと。
うんうん。
それが2024年ぐらい。
ほう、割と最近じゃん。
そう、去年一生懸命それを作っていたと。
うんうんうん。
で、そのモデル更新の時にちゃんとRLHFもやってるんですね。はぁ、カネリさん覚えてますか。
きた。
RLHF。
あれですね。
あれですね。
どういうやつだっけ。
教科学習だね。
あーすごい。
あってる?
あってるあってるあってる。
いや、あのあれでしょ。アメちゃんあげるから。
そう。
って言って。
覚えてるね、ちゃんとね。
よかった。
急に来るからね、これね。過去のテストみたいなやつが。
そうそう、RLHFで人のフィードバックを入れながら、こっちの画像がいいよとか、そういうのもやって、モデルをどんどん性能を向上させてきたと。
うんうん。
で、SeaDream 3.0ね、これが2015年の3月に出てます。
2.0から3月に3.0になってると。
うんうん。
そこでも、これがコアだよっていうのはないんだけど、すごい愚直にコツコツコツコツとモデルを作り込んでる感じ。
で、性能をじわじわ上げてきて。
で、ここで一緒にSeaDream 3.0は画像生成なのね。だから言語を入れて画像を生成するっていう感じなんだけど。
うんうん。
で、結構シードエディットって言って、画像を入れてテキストを打ってそれどおりに画像を変えるみたいな。編集のAIも一緒に作ったのね。
うんうん。今回もね、それあったよね。
そうそう。で、3.0だとそれ別々だったのよ。SeaDreamとシードエディットって別々にあって、統合されてなかったんだけど、4.0でそのエディット機能と生成機能を一緒にしてマルチモーダル化したと。
おお、マルチモーダル化。
で、さらにモデルも更新して、ナノバナナみたいに言葉でも画像生成できるし、入力した画像と入力した画像をガッチャンコさせて、なんか違う画像を生み出すとかっていうのもできると。
こういう画像生成モデルをリリースした。これが9月ね。
それがバージョン4。
4。
マルチモーダル化ってあれだったっけ、画像を画像として認識できるように。
そうそう、いろんな表現に対応した。
テキストだけじゃなくて。
そう。もともとそうやってテキストで生成するっていうのと、画像を入れて修正するってのが別だったんだけど、それをガッチャンコしてSeaDream 4.0で全部できるようにしたというのが、今話題になってるSeaDream 4.0の正体というか、そういう形なのよね。
9月に出たってことはもう、今今出たわけじゃないのね。もう2、3週間ぐらいは経ってる感じで。
経ってる経ってる。ナノバナナが出てからちょうどちょっと後ぐらい出た感じかな。
ナノバナナのすぐ後ぐらいに出たんだ。
多分ちょっとね、ちゃんとした日付で調べてなかったわ。でもそう、後に出たと思う。
こっちの方が使いやすいぞとか、性能が高いぞということで、ナノバナナ越えって言ってね、話題になってたと。
ナノバナナ出たばっかりなのに、逆張り。
逆張りバナナとしてね、出てたわけよ。
このさ、教えてくれたサイトにもさ、なんか書いてあるよこれ。ナノバナナの代替とみなされていますとか書いてある。
すげーこと書くなと思って。
ね、Googleのね、作ったモデルをTikTokからGoogleを越えたんだって思ってるかもしれない。
そうだね。
そうそう。
すげー熾烈な争いなんだろうな。
熾烈な争いだと思うよ、本当に。
でも実際性能はすごくいいから、使いやすいから。
そうなんだ。
で、結局いろいろあるのよ。これもそれなりに技術資料出ていて、こういうふうにチューニングしましたよとか、こういうふうにトレーニングしましたよっていうのはいろいろ書いてあったんだけど、
これ特殊だよねっていうことはほとんどない。
頑張ってコツコツ作り上げてきましたみたいな感じなのよ。
えー。
ざっくり言うと。
日本語理解度の高さ
そうなんだ。
割と正当派じゃん。
正当派。だから使いやすいし安定してる。
中国なのに。
なんだけど、なんでこれ使いやすいんだろうなというところ。ここ1個ポイントがあってさ。
使いやすいってのはさっきの言うこと聞いてくれるっていう意味だよね。
言うこと聞いてくれる。
これは明確な論文があるっていうわけじゃなくて、続説的な感じになっちゃうんだけど、このSeaDream 4.0が中国語ネイティブのモデルだから、日本語への理解が高いんじゃないかって言われてるのよ。
これがそもそも使いやすいって日本人が思う理由。
なるほどね。
日本人はそもそも日本語で打ってるってこと?まず。
基本的にプロンプト、英語で打つ人もいるんだろうけど、今って別に日本語で打つんだよ。普通に。
日本語でこうしてほしいって打った時の理解度がNADO BANANAよりも全然高い。
へーそうなんだ。
だから普通に使っていて、同じプロンプト打ってもNADO BANANAよりいい画像が出てくるから、性能が高いように感じるんだけど。
それの正体って日本語への解像度の高さなんじゃないかっていうのがすごく言われてると。
そこなんだ。
じゃあ英語で打った場合はそんなに差を感じないの?
多分差を感じないと思う、そんなに。
ただ我々がネイティブ並みに英語で詳細まで表現できるかって言ったら、なかなか英語を学んでる人にないと無理だよね。
比較プロンプトがあってそれをボンって入れれば分かるんだけど、英語で入れても多分そんなに差は出ないと思う正直。
日本語で日本人が画像先生使いたいじゃん。自分たちのネイティブの言葉だから。
そういう言葉で使った時の解像度の高さがやっぱ高いのよ。
なるほどね。そこなんだ。
だから中国ネイティブのモデルだから、日本人が使いやすく感じてるっていうのがスゴーさんの正体。
中国語と日本語って近いんだ、そもそもなんだけど。
いいとこつくね、カネリン。
いやいやいや、それも台本っすか。
今からその話をしようとちょうど思ってたんですよ。
書いてありました、ちゃんと僕のセリフ。ここの辺来るぞって。
この辺来るって書いてあったというか、この辺話したいなと思って。
なるほどなるほど。
今のはね、いいパス、もう。
自分から言わなきゃいけないかなと思ってたけど。
なるほどね。
なんか言ってくれちゃったみたいな。
これ言っていいのかなってさ、ドキドキしながらさ。
いいとこ来るねみたいな。
よかったよかった。
言語間距離っていう概念があるのよ。
近い言語化みたいな?
そう。これは別にAIの文脈とかじゃなくて、普通に外国語を学ぶ時によく言われることなんだけど。
言葉と言葉の文法とか表現が近い方が、当然さ、僕語話者にとってその言語って学びやすいよね。
そうね。
日本語話者が近いような文体の言語ってすごい馴染みやすいわけ。
例えば日本語と一番言語間距離が近い言語って言うと。
韓国語。
さすがカーネリン、そうなんですよ、韓国語だね。
仕込まれてますんでね、韓国おじさんにね。
台本あるってね、なんか思われちゃうかもしれないね、これね。
やっぱそうなんだ。韓国語は知ってたけどさ、中国語ってそんなイメージあんまなかったから。
あの日本語、韓国語の次に言語間距離が近い言語は中国語なの。
そうなんだ。なんかめちゃめちゃ漢文とかレテンとかよくわからん線引かされてぐちゃぐちゃの順番で読まされるのに近いの?
漢字がポイントなのよ。
あ、そう。
漢字扱うでしょ、日本語も中国語も。
確かにね、確かに確かに。
なんか中国語ってさ、正直全然わかんなくても、知ってる漢字出てきたらなんとなく意味わかるところあるとよ。
わかるそれ。
わかるでしょ。
その漢文読めなくても意味わかるみたいな、なんとなくっていうことだよね。
そうそう、あとさ適当な、めっちゃ適当な中国語風の漢字の列を日本人が適当に作っても、中国人になんとなく伝わるのね。
伝わるんだそれ。
伝わる。
ウケる。
なんか我なんとかなりみたいなさ、なんかめっちゃ日本語なんだけど、中国っぽいやつ使っても中国人わかる。
わかるんだ。
わかる。
漢字の意味がほぼ一緒なんだもんね。
そう、似てる。まあちょっと全然違うのもあるけど、結構似てるから。
そういう意味で漢字っていうその特殊な文字を使って、そこの意味が似たり寄ったりなので、表現として、その文法は全然違うんだけどさ。
うんうん。
なんだけど、言語感の距離としては中国語と日本語って近いと言われてるのね。
そうなんだね。
中国語の影響と評価
そう、ちょっとね後で言語感距離マップみたいなやつ送っとくわ。
いいね。
今ちょっと送っとこう、ちょっと待ってね。
中国語、じゃあさなんか文法は全然違うけど、漢字があることによってめっちゃ距離近くなってるってこと?
そう、漢字っていう共通の文字を使うから、でその漢字をネイティブで学んでるのよ。
うんうんうん。
だから漢字も学習の中にバンバン入れてるのね、そのCドリームって中国語をさネイティブとして学ばせてるから。
その効果で日本語への解像度も高くなってんじゃないかっていう考察がある。
まあそれは研究ベースじゃないから、本当かどうかは分かんないけど、確かにそう考えると通じて回るなっていう部分がすごくある。
それってさ、漢字をいろいろ学んでる要は辞書がいっぱいあるからっていう意味なの?
この漢字の意味はこういう意味だっていうのがいっぱい学習してるから、似たような日本で使う漢字が投げられたときにそこと紐づいて解釈されるっていうこと?
意味を直接学んでいるわけじゃないんだけど、結局LLMの学習ってこの前も言ったけど、文章バーってあったときにマスキングしてここ何が入りますかっていうので当たった外れたっていうので、
自分でさテスト問題いっぱい作ってセーフで学習していくんだけど、その過程でこの漢字が持つ意味っていうのをなんとなくこう脳みその中で学んでいくのね。
山ってあったら山って、山っていうこの漢字ってなんかマウンテンに近いなーみたいな、いろいろ学んだ結果。
でこの山の画像があってさ、ここら辺に近いかなっていうその漢字の解像度、漢字のそのポジションみたいなのが学ばれるのね、マップの中で。
なるほどね。こういうものが山のカテゴリーだよねみたいなのができていくってこと?
そうそうそう。山をこの山ですっていうふうに直接こうお勉強的に学んでいる部分はあるんだろうけど、そういう学習ではなくて、もっとこういっぱい学ぶというか、
もう勝手にガーッと大量の文章から学んでいる中で、赤ちゃんがこの言語のなんとなく意味を学んでいくように賢くなっていく。
そういうやり方をしてるね。そこの学習のデータとして中国語がネイティブでバンバン使われる。
うんうん。本当だ今マップ見てるけど中国語次に近いんだね。韓国語がすごい近いんだ。
英語が一番遠いのよ。
英語遠いんだ。
英語が真反対。
反対じゃん。
そう。
かんべんしてよ。
日本人ってやっぱ英語下手って言われるけど、俺も英語苦手だけどさ。やっぱその距離がやっぱ広いよねっていうのが、すごい学習の障壁になってるらしい。
そうなんや。
うん。逆にこの言語間距離の近さがSeaDream 4.0が日本語を理解して画像を生成してくれる。その理解度が高いから日本人にとってなんかすげえ使いやすく感じる。
なるほど。
思い通りに動くやんみたいな。ナノバナナより全然言うこと聞いてくれる。すげえみたいな。
じゃあ日本としては英語の企業のそういうのを応援するんじゃなくて中国企業を応援した方がええね。
あのね、日本語の。
違う。
日本語のLNAも作った方がいいっていうのがあれだ。
まあそうだけどなんかもう諦めてしまっていた。
中国を応援した方がいいけどちょっと中国のLNAもさ、使いにくいよね。
安全性的な。
安全性的な意味で。企業の中でさ、中国のサービスですっていうの使いにくいもんねやっぱね。
やっぱりそうなんだね。
SeaDream4.0の言語間距離
使いにくい。使えないよね。アクセスさせてくださいって言ってもさ、中国のこの企業のって言ったら無理よね。
会社内で。
会社内では。
なるほどね。
とてもじゃあ個人で使うにはいいけどさ。
やっぱそうなんだ。
そうそうっていうその安全性の面でもね、やっぱお国柄があるからさ、なかなか用を使わせてもらえないと。
確かに。
でやっぱ日本語のね、その国産LLM結構ね、頑張ってほしいなっていうところではある。
うんうんうん。これさ、じゃあ日本語でこういうのって開発してんのかね。
してるしてる。
してんだ。追いつくの?それなんかレベル的にさ。
いやどうだろうね、なんかね、それも一応調べたのよ。
うんうん。
カネリンがそういう質問してくれると思って。
いろいろね、こう出てきたんだけど。
うん。
だからクリティカルなものは今のところないじゃない。
うんうん。
いろんな企業が、ひたちとかNTTとか、大きい企業がさ、その日本語のLLM作るぞってやってたりとか。
うん。
どうなんだろうね、ちょっと多分水面下に住んでたりとか、実はやってますよっていう、そのNEDっていうね、研究の機構があって、そこベースでやってたりもするんだけど。
なんかバシッとこう、すげえの出来ましたっていうのはまだない?
うん。
うん。
うん、なんか突然、突如発生するのかな、そういうの。
いやー。
ナノハラナ超えたぜ!みたいな騒ぎ出すっていう。
でもそれ熱いよね。
騒ぎたいよね、そうなったら一緒になって。
日本語のやつでこうナノハラ超えたぞ!みたいな。
ね。
中国語を学んでて日本語をちょっと理解してくれるのに喜ぶよりも、日本語でやってんだぜ!みたいなやつがね、出てきたらもうめちゃくちゃやりやすそうな感じもするけどね。
そうだよね。
そうそう。
落ち着いてらんないよ、そうなったら。
そこはね、応援してかなきゃいけないし、やっぱ中国強いのはさ、国でやってっからね。
なるほどね。国家規模で。
国家規模でやってるから。で、たぶんかけてるお金も全然違うし。
なんかね、アメリカからいじめられてはいるんだけど、それを糧にどんどん技術開発していくからさ。
なんかGPU渡さんとかってね。
うんうん。あったね、なんかね。
そうそうそう。結構ね有名だよね、あのディープシークの話って。
GPU、性能高いGPUもらえないから、ちっちゃいGPUでも性能が出るように知識上流っていうのをしてさ、
ちっちゃくてめっちゃ性能いいやつを結果作ったっていう。
あれは本当だったんだ。
本当本当。
なんか嘘が混じってたとかなんだとかって、どこまで本当の話だったのか結局最後わかんなくなっちゃったけど。
ああ、嘘っていうのは聞いたことないけど、まあ多少持ってはいたかもしれないけど、でもディープシークの性能はやっぱすごいよ。
うーん。
コンパクトだしね、すごい。
最近あまり聞かなくなったけどね、ディープシークって。
なんでだろうね。なんか日本で使っちゃダメってなったからじゃない?あんまり。
うんうん。
積極的に。
積極なんか情報漏洩というか、情報がどうのこうのってなってからかな、みんな使わなくなったの。
そうだともう、俺個人では使うけどね、安いから。
ああ、そう。
安い。安いのもAPIいくら叩いても全然お金かかんないんじゃないかっていうぐらい安いんだよね、ディープシークは。
なるほどね。
なのにそこそこ性能がいいからさ、お試しはとりあえずディープシーク一人ってみたいな。個人でやるときはね、企業ではできないけど。
APIで使うってこと?
そう、APIで使おうと思ったときにディープシーク叩きに行くと、なんかさ、いくらテストしてもそんなお金かかんないから安心。やっぱクロードとかね、ああいうのいいモデル使うとさ、ゴリゴリなんかどんどん減ってくからさ、減ってくてお金かかってくから、精神衛生上良くないのよね。
なるほど。お試しにちょうどいいんだ。
お試しにちょうどいい。
情報くれてやるって感じでね。
そうそう、別にそんな大したもの入れないしね、個人でやる場合はね。っていう感じかなっていうので、ごめんね話取れたけど、言語間距離の関係もあって、中国語をベースに並んでるから、C-Dream使いやすいんですぜと。
なるほどね。
これがなんかちょっと凄み、今驚いてる凄みのベースにある話なんじゃないかなと。まあちょっとね、この諸説ありです、これは。
あ、そうなんだ。これは。
検証したって人はいないから。
もうSNSとかで言われてること?
そう、SNSかネットで考察されてたりとかすることをちょっといろいろ集めてみたらそんな感じだったし、確かに辻褄合うなというところはある。
なるほどね。面白いな。いろんな言語間距離のなんか図がいっぱい出てきて。
出てるでしょ。
常に日本語と英語が対極にあるなんか。
そうだね。やっぱ日本語と英語はすごく遠いから。最近はさ、もともとLLMで始めた頃ってプロンプと英語で入れた方がいいよねってすごい言われてて。
言われたよね。
そう、わざわざだから日本語を英語にしてそれを入れた方がいい回答が来る。それをまた英語で受け取って日本語に翻訳した方が、接戦し合えばその英語の学んでる量が多いから情報いっぱい取ってくれるんだよみたいなのがあったんだけど。
あったあった。
最近は結構バランスよくいろんな言語を学んでるから、あんまその英語で積極的に入れなくてもいいよねっていうのは言われてる。
ああそうなんだ。
でもやっぱその細部というか、その国の文化とかさ、表現とか細かい部分まではやっぱ学んでないから、そういう細かい表現とかを取り入れてもらおうと思ったらやっぱなるべくその自分の言語に近いというかそれをいっぱい学んでた方が良くて、それがSeaDreamで出ているのかなっていう部分はある。
なるほどね。正しい情報は全部吸われると。
そう、情報は全部吸われるってちょっと語弊があるかもしれないけど。中国系のやつはね、どこもそうだけどさ、いろんな使い方をされてるんだろうなと思った方がいいかな。
なるほど。
はい。っていうのがSeaDreamのお話で、ここで終わってもいいし、せっかくだから拡散モデルの話をしてもいいしっていうところかな。
ディフュージョンモデルの理解
何モデル?
拡散モデル。
何それ?
ディフュージョンモデルって聞いて。
ステーブルディフュージョン?
あ、さすがカネリン。さすがカネリン。欲しいの全部言ってくれるから。
さすがっていわれることなのか、これは。
そう、ディフュージョン、画像生成ってそもそもどうやってやってんのって話ね。
そうだよ、本当にあれはもう魔法だよ。
意味わかんないでしょ。
うん、わかんない。
ディフュージョンモデルなんだ。
そう、ディフュージョンモデルってのがあるの?
そう、拡散モデルって呼ばれるものがあるんだけど、この仕組みなのね、基本的には。
うんうん。
このディフュージョンモデルのすごい基本的な話をしようかなと、せっかく画像生成の話したんで。
おー、いいね。
そうそう、これを理解しておくと、なんで画像ができてるんだろうっていうのが、
分かったようで分かってないようで、分かったような分かってないような感じになる。
大丈夫かな。
あの難しいのよ、概念がね、概念が難しいから。
なるほどね。
そう。
よくやったよ、あの流行りの時にさ。
うん。
いっぱいアニメの美少女とかみんなで出してた時にやってましたよ、僕も。
あ、スティーブルディフュージョンを使ってた。
ディフュージョン、あのローカルで回すやつをね。
あ、やってたんだ。
デスクトップでさ、もうずーっとブン回して、ずーっと生成してた。
あ、いいね。
もう冬はもうそれがファンヒーターみたいになってた。
やってんじゃん彼に、そうそう。
じゃああのさ、2022年の意味不明なスティーブルディフュージョンが出てきてさ、なんか画像できるよねって言って、
あの時さ、プロンプトってもう、なんだろう、単語をさ、コーテーション付けて、
そうね。
裸列して、で順番が先に来た方が優先度が高くてみたいな。
あったあった。
で括弧で括ると強化してみたいなさ、そういうプロンプトだったじゃん。
あったあった。あといろんなモデルが出てさ。
そうそうそう。
なんか著作権違反バンバンみたいなので問題になったり。
そうそうそう、スティーブルディフュージョンでモデルを自分で作れたりとか、人が作ったものを共有できたりとかね。
そうね。
そう、ローカルに入れられて、もうやりたい放題だったから。
その時結構いろいろ触ってみましたけど、まあそれっきりだね、画像生成って。
やってんね。
まあ一通りね、流行りの先走りでやってたよ。
あの時代面白かったよね、まさにさ、なんか呪文みたいな感じで。
いやほんと呪文って言われてたもんね。
そう、プロンプ本当に呪文じゃん。わかんないから、だって単語の裏列でさ、なんでこの裏列で。
もう見えないもん。何書いてあるかもわかんない。
あの時さ、話に全然反れちゃうんだけど、やっぱ変態がさ、技術を進歩させるんだなっていうのをすごい思って。
おお、なるほど。
なんかとにかくおっぱいを大きくするプロンプトを考えてる人がいたのね。でそれをさ、真剣に検討するスレッドみたいなやつがあってさ。
そうだって。
こうした方がいいんだみたいな。こうしたら胸だけ大きくなるぞみたいな。で水着の面積を減らすためのプロンプトみたいなのを考えた人がいて。
でそれをなんかこうシークバーで調整できるようにしましたみたいな人がいてさ。
このバーを右にやると大きくか小さくなるみたいな。まあすごい技術って変態によって作られてるんだみたいな。
なるほどね。
っていう思ったのがねすごい楽しかった。
そういうところから革新が起きてくんだ。エロから。
そうエロからやっぱ発展していくなっていうのを眺めながらうんうんって見てたんだけど、そのいっぱい遊んだディフュージョンモデル。
懐かしい。
ディフュージョンモデルに革新をもたらしたモデルなのね。
あ、そうですか。
そう。
ステイブルディフュージョンっていう製品名から取ってるんじゃなくて逆なんだ。そもそも。
そう、ディフュージョンモデルっていうのがあるのね。ディフュージョンってさ、ディフュージョンなのね。
はいはいはい。
フュージョンって。
フュージョンって。
いわゆるさそのドラゴンボールと、そう!
フュージョン派のベジータと悟空がこうベジットになるやつ。
世代世代ヤバいじゃないのさ ベジットじゃないゴジータでしたすいません間違えました
ゴジータ? ゴジータですねベジットはねポタラで合体するからそれ間違えるとねちょっとあれだけど
細かった ヒュージョンってそのヒュージョン? そうそのヒュージョン 合体すんの? そう
のDだから 合体するんじゃなくて拡散する
そう逆なのね 逆ってことね そう拡散モデルってことでディヒュージョンモデルと言われてるんだけど
拡散ってどういうことよ このね拡散っていうのがね非常に重要なのよね
へえちょっと全然イメージは開かないんだけど これはねすごく難しいんだけどまあ画像を生成するためにねこう作られている
生成AIのモデルなんだけど 学習する過程で画像を壊しながら学習するのねっていう特殊な方法を用いているから
ノイズと学習のプロセス
特殊な方法を用いているからがもう拡散モデルなんだけど
画像を壊す そのこと拡散なのまあいろんな形で拡散するんだけど
まずねちょっと まあまず手順だけ説明するからふーんって思って聞いてほしいんだけど
普通の画像がありますと 画像ねなんか猫の画像でもいいや猫の画像がありますと
そこにちょっとノイズを加えるのね ちょっとなんかザリザリになったなみたいな
さらにノイズを加えるのね さらにノイズを加えるってずっとやっていくとだんだん砂嵐みたいな何も映ってない画像になると
画像を完全に崩しちゃうってことねノイズって この崩す過程を
学習していくのよ で崩す過程を学習するちょっと語弊があるんだけど
ノイズを崩してノイズを与えて崩すっていう過程を覚えておいて それをもう何にもノイズまみれになって砂嵐になった画像から元に戻すっていう
その逆拡散って言うんだけどそれを 純拡散っていうのがノイズを加えてぐちゃぐちゃにする
砂嵐にしちゃう それをノイズまみれのところから加えたノイズを逆に計算して元に戻していくっていうのを純拡散って言うんだけど
ノイズを取り除く作業の部分を学習するのね
ノイズがなくなっていく作業を学習 そう 学習する正確にはどういうノイズが加わったのかっていうのを推定するっていう
AIのモデルを作るんだけど多分難しすぎてよくわかんないと思うから ノイズを取り除く人がいるってこと
砂嵐の画像から猫になってくってことそれ 学習したら そう
うーんすごいねそれ まさにそういうこと 何ができるかわかんないじゃんそんなんね
カネインすごいね えなになに いやもう一発でそこにたどり着くいいね
そのわけわかんないじゃなくて何ができるかわかんないじゃんっていうところは大事
犬になるのみたいなさ猫に行くの だからとにかくじゃあ猫の画像ばっかノイズで崩してまた元に戻してみたいなやつをめっちゃ学習したモデルがあったら
適当なノイズまみれの画像を入れたら何らかの猫の画像ができるのね そういうモデルだからもう一回崩して元に戻すってことをひたすら学んでる画像だから
猫に行くんだ そうそれは猫だけ学んでるから猫だけひたすら学ばせたらそこにノイズ入れたら何かそのノイズから復元したその学んだ中から似ているような猫ができるけどそれは現実で一回もそういう画像を学ばせたことないけど未知の猫ができるのね
なるほどね っていうこのこれが拡散モデルの動きざっくりした
ちょっと面白いなそれ そうだからもう本当に崩して元に戻すと だからよく念頭細工に例えられるんだけど職人がさこの完成した彫刻をどっか誰かこうちょっとずつ崩してくる
その崩してるのを横で見てる人がいて あー崩れてる崩れてるつって全部崩し終わった後にその粒々を全部接着剤でくっつけて復元するみたいな
それってさ本当に猫の画像が元あってノイズを重ねた画像じゃないやつを適当な画像を与えても猫になるってことだよね
そう何らかの猫になる 何か推定して計算して そうこの画像だからこうかなこうかなっていって猫になるっていうこれを拡散モデルっていうのね
拡散モデル崩していくから そう崩して拡散していくから
でこれがいわゆるディフュージョンモデル ディフュージョン 拡散って拡散広がるって意味の拡散
そうそうそう杉さん拡散ではないよ うんうんちょっと古いね世代がねさっきからね年齢不詳感出てきた
年齢不詳感出ていいじゃん でさっきカネリンが言ったんだけど何の画像を作れるか分からないじゃんと
そうね って言ったのがまさにそうで分かんないの だからここで条件付き拡散モデルっていうのを作る
はい
それは何かって言ったらテキストを使うのね だからノイズから復元するときに
これこれですよみたいなヒント与えるってこと そう
そっちにちょっとバイアスかかって復元していくってこと そう
でおっぱいがでかくなるんだ そうそうそうおっぱいを学んでるってことそう結局
だからテキストで拡散する過程でテキストも一緒に学んであげる テキストっていうとちょっと語弊があるんだけど
エンベディングって言ってベクトルに変換した猫ってそのまま学ぶんじゃなくて
これ一回ベクトルにしてあげたものを一緒にノイズと一緒に学ばしてあげると条件付きができるのね
だから次猫って言葉を入れたときに このぐちゃぐちゃのノイズから何となく猫を復元するために
こういう除去すればいいかなっていうのをやっていくと猫ができると
それって学習段階の話
そう学習した結果の話
学習した結果の話
そう学習するときはぐちゃぐちゃにする猫の画像があって
元のねこれはこういう猫ですよっていうテキストがベクトル化されたものがあって
それと一緒に学びながら崩していく
ベクトル化って何ですか
ベクトル化っていうのは言葉のまま扱うんじゃなくて意味の空間に埋め込まなきゃいけないのよ
意味空間
そう意味空間
ここまで出てきたよちょっとこの辺のものですよみたいな
そうただ猫とかさ
方向づけみたいな
そうキャットとかってさ猫はキャットですみたいな一個一個一字覚えてられないのね
猫空間みたいなとこに
そう猫空間はだいぶそこに限定されているけどそうそう猫空間があるの
猫っぽいものがこうウヨウヨ集まってる空間
集まる空間猫っていう言葉をベクトルに変換してここら辺ですよねっていう位置に埋め込んであげるねっていうのをエンベディングっていうんだけど
エンベディング
そうやってその空間と紐づけて拡散を学ばせると猫っていうのを入れたときにこの空間ですよねと
じゃあちょっとこういう感じのノイズの状況だよねってやっていくと猫の画像ができるよねとか犬の画像ができるよねっていうのになると
だからその拡散モデルはもうとにかくテキストと一緒にいろんなものを拡散しながら学ばせた大きいモデルを作ってあげて
だからミッドジャーニーとかで画像が生成される経緯ってなんかすごいモザイクみたいなところからだんだんはっきりしていくじゃん
そうそうそうそう
それあれ除去してんのこうやって
そうそうまさにそんな感じイメージとしてはだからあれもう最初ノイズまみれのところからだんだんモザイクみたいなところからさちょっとずつちょっとずつ出てくるでしょ
そうね
あれから拡散の逆拡散過程
そうなんだね
そうっていう感じのそういう仕組みで画像って生成されてるのよ
これがいわゆる画像生成の超ざっくりとちょっと間違ってたとかあるかもしれないけど超ざっくりとした仕組みなのね
計算量の軽減と技術の進歩
ざっくり説明ね
でこれがいわゆる拡散モデルディフュージョンモデルだったんだけど
ディフュージョンモデルすごいいいんだけど問題があったのよそれが重いっていうこと
だからいちいちさノイズをさ除去して除去してこれなんかモザイクみたいなやつから一個一個除去して除去してっていうのを処理として画像に対してやってるとすげえ時間かかるの
時間かかるもんね実際ねめちゃめちゃ
そう時間かかるんだけどカーニンが思ってるよりも多分もっと計算量が多かったの画像に対して直接やるから
ちょっとそれむずいよねっていう結局条件付きの拡散モデルっていうさ今までも適当なものが急に出てきてコントロールできなかったものが言葉でコントロールできるようになりましたよと
さっき言った話はね条件付けができたんだけど重いからなかなかちょっと難しいよねと実装できないよね社会にっていうところだったんですけど
そこで速さを手に入れて凄い処理が軽くなって一気に世の中に出てくっていう技術が誕生したんだね
もう誕生してる
誕生したそれがスティーブルディフュージョン
ああそうそれがスティーブルディフュージョンですか
そう2022年に
ディフュージョンっていう名前だけど
そうスティーブルディフュージョンっていうのは潜在拡散モデルって言われるアイデアを使ってるのね
潜在
潜在何かっていうとちょっとね僕もちょっと深く理解しているわけじゃないんだけど
元々ノイズまみれの画像から直接こうノイズを除去して画像を生成するっていうのを一生懸命やってたから
すごい画像に直接こう生成してたもんで時間かかってたと
なんだけどちょっとノイズ除去の計算はちょっとすごい負荷が高いからもっと違う空間でやろうぜと
だからその実際の画像のピクセルの空間じゃなくてもっと次元を圧縮した潜在空間っていうのを作って
次元圧縮
そう次元まあちょっとねクラストリングの話とはちょっと違うんだけど
違うんだ
ギュッと圧縮された別の空間でその処理をしてまた復元しようぜと
その計算だけはすごい圧縮された空間でやればもっと処理軽くなるよねみたいな
そのノイズ除去とか拡散の過程をっていうその潜在拡散モデルっていう発想を作ったのがスティーブディフュージョン
でそこですごい軽くなった
で軽くなったものが出てきて僕らが知ってるんだそれをスティーブディフュージョン
そうだからオープンソースで使えるようになって我々のパソコンの中でも計算で動くようになった
それまでもっとスパコンみたいな
そう研究室にあるようなでっかいパソコンじゃないととてもじゃないけど動かなかったものが
家庭のちょっといいGPU入れたものでガンガン動くようになったのは結局そのスティーブディフュージョンっていうのが出てきて
拡散モデルの中でも潜在拡散モデルっていうのが使われるようになって計算量が軽くなったから
だから紳士達がおっぱい大きいおっぱいちっちゃいとかってできたのはそういう技術の過程があるわけですよ
文字生成の精度と拡散過程
ほんと技術の無駄遣いだよな
こんな敬意を知っちゃうとね
そうなんだ
そうちょっとごめんね駆け足で説明しちゃったけど
いやいやなんとなく
なんとなくわかったでしょなんか画像って育っていっぱい元の画像になったものを崩してまた生成するっていうのを
ノイズを除去して生成するっていうのをひたすらやるという学習をしてるから
それをテキスト言葉と一緒にやることで条件付けができるようになって軽くなって今に至ると
だからテキストと一緒にやるとそっちの方向性で出てくると
そうなんでそこのテキストの部分で中国がいっぱい使われていると
漢字とかの解像度も高くなるから日本語の理解も多くなると
だからその拡散過程ですごく自分が意図した形が出てきてくれるから
意味空間に漢字のものがあるってことだよね
そう漢字がある漢字もあるししかも漢字そのものもあるのよ中国語を学んでるから
だから面白いのはシードリームの話ちょっと戻るけど
シードリーム4.0で漢字を生成することがすごくできるのね
ああなんか誰か生成してたね
そうナノバナナよりも圧倒的にいいのはやっぱ文字の生成
だからそのなんかさ広告みたいの作ろうと思って文字入れようと思うと
すごい漢字綺麗にはたんなくパパンと出してくれると
ただ問題があるのは中国語っぽい漢字が出てくる
ああそうかそうか日本では使われてない難しい漢字とか出てくる
ちょっと書き方形一緒なんだけどちょっと中国語と形違うやつあるじゃん日本語と中国語の漢字で
ああいうのが結構バンバン出てきちゃうからそこは修正しましょうみたいなことをみんな言ってるんだけど
だからもうそもそも文字の形の理解もしてるし言葉の意味としても漢字をしっかり捉えている
これ今の話ってじゃあ今のナノバナナとか今日のシードリームの画像の生成の仕方もそれだよってこと
そう
モザイクから復元
ナノバナナもシードリームも拡散モデルを使ってる
拡散モデルしかないの
基本的にはその拡散多分ねごめん僕もねあんまりその先を知らないんだけど
基本的にはベースになってるのは拡散モデルだけどいろいろ発展はしてると思う
なるほどね
拡散モデルのその仕組みをめっちゃデカい基板モデルのここにつけて
ここでちょっと画像を生成する機能としてつけましょうみたいな
なるほどね
いや今日もさまだエンディングとかじゃないけどさ
いやもう喋りたいこと終わったよ
本当?
ブラックボックスのさなんかがまたちょっと分かれたよ
でしょなんかなんとなくねちょっと拡散モデルの話はね突き詰めると本当に難しいんだけど
イメージとしてはそんな感じだから
なんかイメージができるようになったのでこの画像が生成されてる間ちょっとニヤニヤしながら待てる感じじゃない
ああそう今ね一生懸命こうわけわかんないノイズの画像から
俺の言葉使ってノイズ除去してんだなっていうのは分かると思う
なんかイメージできるとちょっと待てるというか
ああ今拡散してんだな
ブラックボックス
なんかノイズ除去してんだなみたいな
そうそう魔法ポンじゃないっていうところにいけたのが嬉しい
ああよかったですそこがやっぱねこの番組のねポイントですから
本当これ落ち着きポイントだな落ち着けるもう本当だから今日もなんかもうそわそわイライラしてたからさ
なんでそんなイライラしてんの
全然出てこんし何これっても画像よくわからんの出てきたし何これとかさ
それがこういうなんか頭の中でイメージがあるとさ違うと思うな
いやそうよねやっぱねそれはうん知っといた方がいいし学んでほしいなっていう部分はあったけど
その生成やえ使う上でさ別に拡散モデル知らなくても使えちゃうから
だからこういう話大事よねと
大事だと思う
そうするとなんで中国語を学んでたらいいかとか日本語にどう聞いてくるんかっていうのが
日本語LLMの可能性
なんとなく今日の話でふわっとはつかめたんじゃないかなと思うんで
つかめたつかめたそしてだからこそ日本語のLLM頑張ってよっていうね
そう頑張ってほしいね
こういうことだよね
いろいろね機体のベンチャー企業とかはいろいろあったりはするんだけど
ねえ
だからもうこっからじゃね
いいねえ
そう
まあひらがなとかカタカナは出ないもんねなんか変な風にしか
そうなんだよね漢字はさまだいいけど中国語でも使われている
ひらがなカタカナはもう独自のもんだから
そこはねやっぱり日本語のものを一生懸命もっといっぱい学んで
国産のLLMがなんかできるといいなと思うよね
そこはやっぱりみんなで驚きたいよね
番組の総括
そう驚きたい
すごい
驚かされてばっかだもんね国の外にお金が流れていっちゃうからさやっぱ
結局海外のサービスを使うGoogleとかAmazonもそうなんだけどさ結局
全部そうだよね
そうそう
ありがとうございます
はいということで今日の話はこんな感じでございます落ち着きましたか
よかったよかった
よかったよかった今日もねちょっと無事に着地点まで行けたんでよかったよかった
なんかねその場の落ち着きだけで終わらないのがいいと思うんだよねこの番組の
そうやっぱりそこがミソというか大事にしたい部分よね
自分が使ったときに金井こう言ってたなとか支部長こう言ってたなっていうのが
リスナーの皆さんのね脳内でちょっとでも残るといいなと思います
最高です
ということでじゃあそろそろおしまいでございますまた次回もお会いしましょう
はい
番組公式ハッシュタグはシャープ落ち着きAIひらがなで落ち着きアルファベットでAIです
番組の感想はぜひXなどSNSで書き込んでいただけるととても嬉しいです
Xであればハッシュタグで検索してすべて読ませていただいております
今回の話良かったな落ち着いたなという人は星5レビューをつけて応援してください
それではまた1週間落ち着いて過ごしていきましょう
さようなら
57:39

Comments

Scroll