1. おちつきAIラジオ
  2. [9月23日]🍌Nano Bananaは何が..
2025-09-23 44:58

[9月23日]🍌Nano Bananaは何がスゴい?現役AIエンジニアが解説 (ep.1)

spotify apple_podcasts

SNSで「本物みたいなフィギュアが作れる!」と話題の画像生成AI「Nano Banana🍌」、もう試しましたか?ある日突然GoogleのGeminiに現れたバナナのマークの正体は、実は驚異的な進化を遂げたAIでした。今回は、AIエンジニアのしぶちょーが、なぜNano Bananaがこれほどまでにリアルで一貫性のある画像を生成できるのか?その技術的な背景を「マルチモーダル」というキーワードで優しく解説します。

かねりんの素朴な疑問を通して、誰もがAIの進化の最前線を楽しく理解できる内容です。ただすごい!と驚くだけでなく、その仕組みを知ることで、もっとAIが面白くなるはず。この放送を聞けば、あなたも落ち着いてAIニュースを楽しめるようになります。



【目次】

() オープニング&パーソナリティ自己紹介

() 番組コンセプト:AIニュースの裏側を落ち着いて見る

() 今日のテーマ:世間を賑わす「nano-banana」とは?

() SNSでバズったフィギュア画像の正体はAIだった話

() nano-bananaの本当に驚くべきポイントは「一貫性」

() なぜバナナ?愛称「nano-banana」が生まれた意外な経緯

() 【技術解説】画像生成AIが劇的に進化した本当の理由

() 鍵は「マルチモーダル化」、AIの脳の仕組みの変化

() 落ち着きポイント①:その画像、入力して大丈夫?

() 落ち着きポイント②:まず公式の説明書を読もう

() エンディング|落ち着いてAIと向き合うために


【今回の放送回に関連するリンク】

・How to prompt Gemini 2.5 Flash Image Generation for the best results

https://developers.googleblog.com/en/how-to-prompt-gemini-2-5-flash-image-generation-for-the-best-results/?utm_source=chatgpt.com

・LM Arena

https://lmarena.ai/

【番組の概要】

日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。

【お便りフォーム】

https://forms.gle/yHoq9rgT9MhFGywn9

【番組公式ハッシュタグ】

#おちつきAI

【パーソナリティ(MC)】

▼しぶちょー

・AIエンジニア

・技術士(機械部門) 

「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。

情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。

著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」

https://x.com/sibucho_labo

https://voicy.jp/channel/3963

▼かねりん(金田勇太)

・KANERIN Podcast Studios 代表・一般社団法人 地方WEB3連携協会 理事

「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。犯罪捜査の最前線で培った知見を、リスク回避や資産防衛に活かすCrypto Security Evangelistとして活動。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。」

https://x.com/kanerinx

https://voicy.jp/channel/2534

【プロデューサー】

かねりん https://x.com/kanerinx

【サウンド・アーキテクト】

Aviv Haruta https://x.com/oji_pal

【カバーデザイン】

準備中

【制作/著作】

KANERIN Podcast Studios

--------------------------------------------------

※画像引用:https://aiflowchat.com/blog/articles/what-is-google-nano-banana-and-where-to-try-it


【各種ポッドキャストスタンドへのリンク】

🟢Spotifyhttps://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o

🟣Apple Podcasthttps://podcasts.apple.com/us/podcast/id1841316430

🔵Amazon Musichttps://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/

🔴YouTubehttps://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD


サマリー

このポッドキャストでは、Googleの画像生成AI「ナノバナナ」について詳細が語られています。その一貫性の高さやユニークな機能に触れられています。また、ナノバナナの正式名称や「バナナ」というあだ名の由来、生成AIの戦いが行われる「LMアリーナ」についても紹介されています。Googleの画像生成AI「ナノバナナ」は、その高い性能とキャッチーなアイコンで注目を集めています。このモデルは、ジェミニという本名を持ち、マルチモーダル技術を活用して画像生成の新たな潮流を生み出しています。進化した技術により、ユーザーに驚きの体験を提供します。しかし、利用にあたっては規約を守ることが重要であり、著作権や肖像権に関する注意が必要です。公式のプロンプトガイドを活用することで、より効果的な使い方を学ぶことができます。「ナノバナナ」の活用ポイントや技術的な特徴についても深掘りされています。SNS上に広がる情報の影響とAIによる創作物の識別についても議論されています。

ポッドキャストの紹介と自己紹介
おちつきAI
AIエンジニアのしぶちょーです。
AIドシロートのかねりんです。
この番組は、日々のAIニュースで驚き疲れたあなたに、一度落ち着いていただいて、ゆっくりじっくり、AIを学ぶ時間をお届けする、そんな番組でございます。
はい、ということで、おちつきAIラジオ第1回目です。よろしくお願いします。
めちゃめちゃ始まっちゃいましたね、これ。
始まっちゃいましたね。
じゃあ早速なんですけど、ちょっとね、まずじゃあパーソナリティー誰なんだってことで、自己紹介からちょっと簡単に入っていきたいんですけど、
まず私、しぶちょーです。製造業のエンジニアやってまして、もともと機械設計っていうね、機械を設計するような技術者だったんですけど、
4年前ぐらいからですね、ちょっとAI分野に転校しまして、そこからはAIエンジニアをやっています。
この番組ではね、AIを教える人としていろいろ喋っていきたいと思います。よろしくお願いします。
じゃあ次、かねりん、自己紹介お願いします。
かねりんポッドキャストスタジオというポッドキャストレーベル兼プロダクションを経営してます。
今だけじゃなくて、100年後の人にも聞いてもらえるっていうコンセプトで音声コンテンツを作ってます。
もともとはね、ブロックチェーン関係の情報発信をしてた頃があって、毎日毎日最新情報を追いまくらなきゃいけなくて、結構大変だったんですよ。
しかも苦労して取ってきた情報はすぐに時代遅れになって、陳腐化してしまって、価値を失ってしまうっていうのもショックなことなんですよね。
トレンド分野ってこういうことが起こりがちで、情報がどんどん新しくなっていくと、もちろん生成AIも例外じゃないんですよね。
どうせ情報発信するなら、もうちょっと賞味期限の長い情報を発信したいなと、そういうふうに最近は強く思ってたんですよね。
で、支部長とは最近ポッドキャストイベントのご縁で出会って、あ、誠実に情報発信する良い人だなと思って目をつけておしゃべりしてたんですけど。
お話ししてくうちに結構息統合してね、落ち着けるAIの番組やろうぜっていう話になって、この番組にこぎつけたという感じです。よろしくです。
ナノバナナの紹介
はい、じゃあ今日も一緒に落ち着いていきましょうね。
そうですね、毎週皆さんと一緒に落ち着いていけたらなと思います。
はい、ちょっと簡単な番組コンセプトだけちょっと僕の口から説明させてもらうと、やっぱ日々ね、もうAIの進化すさまじいじゃないですか。
うん。
で、もう本当に驚くと、こんなことができたのかと。みんな言ってますよ、こんなこと、もう世界が変わるんだと言っているんですが。
なんかもう1週間に1回ぐらい世界変わって、月に1回ぐらいなんか世界が滅びてますよね。
シンギュラリティでね、AIに世界を滅ばされてるんじゃないかと思うぐらい。
本当に、いろんな職業が終わってね、いろんな人の人生が終わってしまって、なんかすごいことになってるんですよ。
冒頭から物々しいですけど、それぐらいね、やっぱね、やばいんじゃないかとかすごいんじゃないかって話があるんですが、
実は日々こう注目されているトピックの裏側にある話の方が実は面白かったりとか大事だったりするんですね。
インパクトがあるところってやっぱ目が行きがちなんだけど、その裏側を実は落ち着いてみた方がAI理解できるんじゃないのとか楽しめるんじゃないのということがあるんで、
この番組にはそういう部分に落ち着いてスポットを当てていきたいなと思っております。
真面目な番組だね。
真面目かどうかは話してみないと分かんないかもしれない。分かりやすくね、ちょっと紙砕いて説明していくんで。
ちょっと分かりやすくなかったらね、僕が手あげればいいんだよね。
あ、そうそうそう。僕もね、勉強中のみなんでね、勉強しながら話しますけども。ちょっと分かんないなって思ったらすぐ聞いてください。
うん、お願いしますわ。
はい、お願いします。ということでじゃあ早速第一回目始めていきましょう。
いきましょう。
はい、今日のテーマはですね、こちらです。最近世間を賑わしているナノバナナでございますよもう。
ああ、もうよく分かんないもうすでに。
え?
なんかある日突然ジェミニにバナナのマークがついた。
あ、そうそうそうそう。
もうなんか、ああいうの僕最初押さない。
結構いじわしをたたいて渡らないタイプ。
なんか変なボタンを押さないですね。
戻せなくなっちゃうからみたいな。
あのちょっと若干web3時代の癖があって、よく理解していないボタンを押さないっていう。
あ、でもそれめっちゃ大事だと思う。めっちゃ大事だと思う。
なんだこのバナナはみたいなので、押したくなるけど押さなかったんで。
でも今回これ話するからって言われて、ちょっと触ってみました。
あ、触ってみましたか。
見ました見ました。
どうでした?
支部長が触っていいよって言うから、じゃあ大丈夫なボタンだと思って。
トピックにするからね、ちょっと触っといてっていうのを言ったんだけど。
あ、大丈夫なやつだったんだと思ってさ。
ちなみにナノバナナ使ってなんか画像を多分生成されたと思うんですけど、どういう遊び方しました?
まあなんかその髪の毛の色変えてとか、髪型変えてみたいなのとか、サングラス取ってとか、
このシチュエーションでこの人にしてみたいな、入れ替えみたいな、なんかそんなようなことをしましたね。自分の写真で。
あれやりました?あのフィギュア。
あ、フィギュアやってない。
あの、SNSってめちゃくちゃもうバズりまくってる。
フィギュアみたいにできるってこと?
そう。
イラスト。
イラストをフィギュアみたいにして、しかもなんか後ろに画面で3Dモデル、モデリングしましたみたいな画面とフィギュアと箱みたいなやつ。
それ何バナナなのそれ。
そう、あれバナナだよ。
最近なんかさ、知り合いの経営者の人がさ、なんか自分の子供のなんかフィギュアできたみたいな写真あげててさ、
うわーなんか本当親バカだな、こんなことするのかってちょっと引いてたんだけど、それバナナかな。
あれバナナ。そうあれね、写真1枚入れて、でもね、あれを作るプロンプトがもう既に公開されてるのよ。
なるほどね。
あれ入れるともう本当に、僕もねその渋町のアイコン、私緑のアフロのアイコンでSNSで発信してますけど、
あれでやったらもう本当に僕のフィギュアと箱とそれをモデリングしている画面がすぐ出てくると。
結構リアル児だな。
いやめちゃくちゃリアル。
それ本物だと思ったもん。
そう本物と、結構ね本物だと勘違いしちゃう人が続出するぐらい。
僕じゃんもうそれ。一般人代表じゃん。
SNSの何かわかんない、でもマネリングまさかその勘違いをしてるとは思わなかったけど。
SNSで驚かされてる人代表じゃん。
驚かされてる人代表ですね。驚いちゃってますね。これちょっと本当に落ち着いてもらわないと。
いや驚いてるもん何もさ、AIだとすら思わなかったよね。
でもね本当にそういう人多いと思います。実際にこのナノバナナが何がすごいって言われてるかって言ったらやっぱ一貫性なのね。
なるほどね。
だから画像を入れてそれを変更したりとかそれを元に何か違う形にするときに入れたものの形がほとんど崩れない。
顔変わんないとか。
顔変わんないとか。前のやつだともう全然違うものになっちゃったりとかするんだけど。
確かにね。キャラ変わっちゃうもんねどんどん。
そうそう。キャラクターが変わっちゃったりとかして何やってんねんっていうのをAIにこう切れながら伝えないとなかなかうまくいかなかったんだけど。
確かに。切れてもね顔戻んないもんね。
そうそうなんだけどこれこの一貫性がめちゃくちゃすごくてだからみんな画像入れてフィギュアとか生成して画像で楽しんでると。それが簡単にできるからもう本当にみんな驚いてるっていうのがなどばだな。
それさそれさ。それってさ、フィギュアができたっぽい画像ができるのが今流行ってるの?
そう。それがわかりやすくて流行ってる。
写真でやったのがその3Dモデルみたいなのができるわけじゃないの?
3Dモデルができるわけじゃない。3Dモデルができたような画像ができるっていうだけ。
できたようななんだ。
まあそれをまた3Dモデルにするのは別のそういうAIが使えばできるんだけど。
おーなるほどね。
ジミーの中だとまあそういうそれっぽい画像ができるっていうだけ。それが一貫性を保ってすごいクオリティーでできるよっていう感じかな。
もうすでにあれだね。
もう僕レベルの人間だったらリアルとバーチャルの区別がついてないね。この世界は。
いや僕もね最初に見たときは本当にそういうなんか3Dプリンターで作ったモデルなのかなとかって思ったぐらい。
だってねものづくりの好きだもんね3Dプリンター。
そう3Dプリンター私大好きだから。
ね。
いやこのプロのクオリティーだなって思った。すごいなあこんなフィギュア作れるのかと思ったけど、あこれあれか。
精々AIの画像かと思うと。僕もね驚かされた。
LMアリーナの存在
ああそうなんだ。
一人なんで。そう最初ナノバダナが出てきたときは。でこれがねやっぱすごいんだけど、結局ナノバダナキャラクター一貫性とか複数の画像合成できたりとか、
まあその言葉のすごい細かい指示を画像に反映できたりとか、性能がすごく高いんですけど。
うんうん。あれってそんなにすごいの?やっぱすごいのはあれは。
いやすごい。
ええ驚いていいやつなんだ。
これはね驚いていいやつ。もうここまで一貫性を保ったまま画像が生成できるっていうものがなかったよね。
なるほど。
でこのナノバダナ登場が結構インパクトが強くて。
ほう。
このナノバダナってまず何っていう話じゃん。
名前がおかしいじゃん。
そうこれね正式名称あって、ジェミニ2.5フラッシュイメージっていう。
あそれが正式イメージなんだ。
そうで通称ナノバダナ、あだ名なのねナノバダナって。
どっからバナナが出てくんのそれ。
これねバナナ、なんでバナナなのかは正直なんか理由は明かされてないんだけど。
はい。
これあだ名がついたきっかけがあってさ、もともとLMアリーナっていう生成AIのなんかバトル会場みたいのがあるのね。
ほうほうほう。
いろんな生成AI、世界の生成AIたちがそこに集って最強を決めるみたいなインターネット上のバトル会場があるの、コロシアムみたいな。
すごいね。
そのチャットGPTとかクロードとかジェミニとか全員そこにいて、ディープシークとかも。
うん。
でそこで1対1で戦って勝ち負けつけてっていうのを世界の人たちがそこでやってそのランキングをつけてるのね。
そんなリーグ戦みたいな。
あるある。
対マン勝負なんだ。
そう。
ベンチマークのスコアを競うとかじゃないんだ。
違うもう1対1。
1対1で。
そうめっちゃ面白いの。このLMアリーナの話だけで。
どういう勝負だ。
いつか話したいぐらいなんだけど。
えーそれちょっと聞きたいねそれ。
そうこのLMアリーナってどっかの大学が運営してるものなんだけど。
LLMアリーナ?
LMアリーナってやつだね。
LMアリーナ?
うん。
LMってなんすか?
LLMの。
ランゲージモデル?
そうそうそう。
おーおーなるほどなるほど。
もともとその生成AIを戦わせるっていうので。
うんうん。
で別にカネリンも審査員ができるすぐ。
へー。
そこログインしなくてもすぐ使えて始めるとモデルAモデルBみたいな匿名でモデルが2つ選択されてカネリンが問題出すのね。
うん。
適当に自分で例えばカネリンについて説明してって入れるじゃん。
なるほど。
そうするとABが比較でバーってカネリンについて説明しだすの。
はいはいはいはい。
でAの回答Bの回答どっちがいいのっていうのをカネリンが選んで勝ち負けを決めるのね。
うん。
で選ばれたら最後にこれはこっちがジェミーでこっちがチャットGPでしたみたいな答えが出る。
うん。
で勝った方にスコアが入ってっていうのを世界でやってるの。
なるほどね。ブラインドテストみたいになってんだね。
そう。それでランキングが決まるっていうまずそのLMアリーナっていうのがありますよと。
人間がそうやってジャッジしてるんだじゃあちゃんと。
そうそう。でその後LMアリーナに謎のモデルが急に現れたんだよ。
ほう。
バナナのアイコンの謎モデル。
ふふふふふ。
そう。で。
最初からバナナだったんだ。
最初はバナナだったの。なんだこれって感じだったんだけど。なんだけどで画像生成でもそのバトルしてんのね。
はいはい。
ナノバナナの登場
でそのバナナのアイコンのやつやばいと。
やばい。
なんか性能がえげつないと。
うん。
なんか時々画像生成で戦わせてると時々バナナが出てくるけど。
うんうん。
強すぎると。
うん。
なんなんだこのモデルはと。
うんうん。
なるほどね。
そういう相性で呼ばれ始めて。
面白いね。
でナノバナナやばいぞ。なんなんだこれは正体はなんなんだって言ってたら。
うん。
バーンと。私ジェミニでした。っていうのが明かされたのね。
面白いなあその攻め方。
そうそう。でバーってこう上がって。でそこでナノバナナがすごく相性として親しまれたから。
うん。
本名はジェミニ2.5フラッシュイメージなんだけど。かっこナノバナナっていう風にバナナのアイコンで今売り出してるのね。
なんかミームっぽいね。
そうだからすごいねグーグルそのマーケティングとしてはめちゃくちゃ上手くて。
そうだね。
キャッチーじゃんバナナって。
話題になってね。
そう。
正体はなんだなんだって騒いで。
そう。
騒がせて驚かせて。
そうもともとねLAMアリーナに登場した時点でもう異常なほど性能がいいとこいつは何なんだっていう風にすごく話題になってて。
でもしかしたらこれグーグルが作ったモデルなんじゃないかっていう風に推察されてたんですけど。でやっぱりそうだったの。ジェミニだったよというのですごくここでまた話題になり。でそれがねジェミニの中で使えるようになったり。
うん。それなんでこれグーグルだろうってこう推測されたのそれ。
なんだろうねそこにあんまり。
なんかコードがちょっと漏れたみたいなそういうやつなんか開発時点のなんかあるじゃないよく。
いや多分。
コードネームが。
順番的な流れ。多分この開発。
GPT来たし。
GPT来たしこれ来たし。で今多分そろそろ来るんじゃないかって言われてた時にめちゃくちゃ性能がいいやつが来たからこのレベルってことはやっぱ草の音でやってる人たちじゃなくて本業でやってる人たちじゃグーグルだろうなっていうので多分推察されて。
やっぱそうだったねみたいな。その時のねそのワクワク感をブログで書いてる人結構いて。
へえ。
っていうので登場した結構だからインパクトのあるモデルでナノバナナっていうのがバーンと出てきたと。
マルチモーダル技術の進化
へえ。この何LMアリーナでこうやって先に出していくもんなの?
あのね結構匿名で出していくもの。だから作ってる途中のその性能とかを確かめたかったりとかするから研究途中のやつをなんか匿名で出したりとかはしてるみたい。
ああそうなんだ。それあまりにもひどかったらちょっとやめとこうかみたいなのにもなるのかな。
そうなると思う。あんまりごめんなさい詳しいところは中身はわかんないけど。でもそういう何だろう商用利用とかじゃなくてあくまでも研究ベースの結構そのフラットな場だからそういうところでこう話題になったっていうのはあるね。
なるほどね。
うんこれすごい。
誰でもそこに出せるんだって言って。
出せると思う。誰でもって言ってもねそのモデルを作れる人自体がそんなにいないから。だけどでも結構何十個何百個ってバーって並んでる中でランキングついてるっていう感じ。
そんなにあるんだね。
そうそう。っていうところで話題になったのはこのナノバナナというところで早速現れそこでGeminiとかGoogle Air Studioで使えるようになったんでみんなすぐ使えるからしかもちょっと入れるだけですごい画像出てくるから驚いてると。
無料だしね。
で今日説明結局そのナノバナナの中身の話ってよくわかんないよね。公開されてないから。だけどちょっとねこの今のナノバナナだけじゃなくて最近一気に進化してる画像生成の潮流というか流れちょっと俯瞰して説明したいなと思って。
いいね。
そうそれを知っとくとなんかなんとなく驚きポイントわかるというかそういう進化があったんだねっていうのがわかるんで今日はねその話をメインにしたいと思う。
ほいめっちゃいいじゃないですか。
なんかさ画像生成なんか進化してるなすごい性能が上がったなっていうだけじゃなくてそういう進化だったのねっていうところを理解してもらうのが今日のステップって感じかな。
なるほど。表面だけで驚かされない人間になるっていうことですかね。
そうだねちょっとそれ言い切っちゃうとすごい含みがあるというか棘がちょっと出てくる話になるけどそういうとこ。
なるほどなるほど。
ねえまあちょっとねナノバナナの話をするんだけどその前に今年なんかさ他にも画像生成で流行ってたというか話題になってたのってなんか記憶にあります?
動画系?
いや画像。
画像?
うん。ちなみにカネリンも絶対やってる。
GPTのやつ?
そう。カネリン何やった?なんかアイコン一時期描いてたよね。
今年だよねGPTがなんか。
そう。
やたらと画像できるようになったの。
そう。
うんうん。いろいろ使ったよなんか結構オレンジっぽく出てくるやつでしょ?もう直ったのかどうか知らないけど。
ああそうそうそうあとあのカネリンもアイコンさ一時期さジブリっぽくしてたからなんか。
うんうん。ジブリ風の。
してたよね。
うんうんうんうん。
今のあのフィギュアと同じぐらいさなんか自分の写真ジブリ風にするのめちゃくちゃ流行ったじゃない。
そうだね。そうだったね。それは今年か。
そう今年のねあれ3月末4月3月末ぐらいか。
うんうん。
チャットGPTの画像生成がまあそういう風に進化した。
うん。
だけどあれなんか画像生成の性能が上がったっていう風に認識すると。
うん。
ちょっとブレてんのよ。
ああそう。
うん。だから何が変わったのかっていうのを理解するとまあちょっとゼミの理解にもちょっとつながるかなと思うんで。
うんうん。
ちょっとそこ話してくんだけど。
うん。
キーワードはねマルチモーダルっていう言葉です。
聞いたことあるよ。
なんかAIで聞くよねマルチモーダル。
ぽいぽいぽいぽいぽい。
これもともと大規模言語モデルとかってあるじゃない。チャットGPT最初の3.5とかのやつって言葉しか扱えなかったよね。
うんうん。
言葉を入れたら言葉が返ってきますよと。
テキストだけ。
テキストだけじゃったじゃないですか。
うん。
だからこれは単一のモーダルなのね。言葉しか扱えないと。
うんうん。
言葉っていう表現しか扱えないんだけど、じゃあその後進化したのは画像を入れたら言葉にしてくれるよとか。
うーん。
この画像を説明してって言ったら、いや車が写ってて猫が横切ってますねとかっていうのを言ってくれるよと。
うん。
これは画像を入れて言葉を扱えるように。だからこれマルチのモーダルになってるよね。画像も扱えるし、言葉も扱えるよみたいな。
モーダルってなんすか。
モーダルは表現みたいな意味。
表現。なるほどなるほど。
そうそう。だからそのマルチのモーダルですよねっていう感じになってるんだけど、これがさらに色々こう扱えるようになってきたっていうのが今の流れなのね。
うんうん。
でチャットGPTって元々どういう風に画像生成してたかっていうと、画像生成するAI別にいたの。
ほう。
だから今までってチャットGPTにじゃあ猫の画像作ってって言ったら、チャットGPTは猫の画像作ってって言われたーっつって。
うんうん。
で裏でダリっていう。
ああダリ。
そう。AIが動いてるんだけどダリさんに猫の画像を作ってって言われたんでお願いしますっていう風に渡すねチャットGPT。
うんうん。
でダリは猫の画像ねはいはいじゃあ猫の画像できましたって言ってチャットGPT側に返してユーザーに渡すっていうことをやってたと。
別なんだ。
そう別。でこれ何が難しいかっていうと結局モーダルとして言語しか扱ってないから入力をLMMがまとめて言語としてダリに渡してあげるのね。
うんうん。テキストでってこと?
テキストで渡すの。だから例えばじゃあこの画像をチャットGPTに渡してこれと同じ画像を生成して欲しいですとかこれのスタイルを変えてくださいとかポーズを変えてくださいって言うじゃん。
それを受け取ったチャットGPTはその画像を言葉にするのね。でダリさんにこれこれこういう人がこういうポーズをとってる画像が入ってきたんですけどこれをこういう風に変えて欲しいでっていうのは全部言葉だよね。
ああなるほど。一回全部情報が劣化しちゃうみたいなことなのかな。
そう言葉になっちゃって。
伝言ゲームみたい。
伝言ゲーム。だからもうなんか似顔絵描いて欲しいって言われてるけどその人の顔を言葉で説明されて似顔絵描いてるみたいな。
ああなるほどね。
だから完成したのが。
だから別人になったりするんだ。
別人になって誰これと。
なるほどなるほど。
っていう風になってたのね。
うんうんうん。
脳みそ2つあるような状態だったんですけど、それのマルチモーダル化っていうのが行われたのが最近なのね。だから何が起こったかっていうと、画像を文字として解釈するんじゃなくて、画像をそのまま意味として、
あのAIの意味空間っていうのがちょっと難しいけど、意味空間っていうのがあるんですね。脳みその中身みたいなもの。だから言葉に一回落として理解するんじゃなくて、画像のままAIの中に落とし込めるようになった。
へえ文字情報化してないんだね。
してない。もう画像は画像のまま。もういろんなモーダルが一緒の脳みそに入ってるの。だから犬っていう言葉も犬の画像も犬が吠えた声も全部だいたい犬ゾーンみたいなところに情報が集まってる。だから音声だって。
そのままの状態であるってことなんだ。この画像が犬みたいなそういうこと?
そうそう。犬っていうゾーンに、脳みそのゾーンに記録されてるというかそこで学習されてるよっていうすごい大きな脳みそを持てるようになったよね。マルチモーダル。そうすると何が起こるかっていうと、じゃあ元の画像を入れてこの画像と同じ画像を作ってくださいって指示したときに、
入れた瞬間にそれは画像として、画像の情報としたままその意味空間に行くのね。情報が。
意味空間。ちょっとさっきからキーワードだねそれ。
意味領域。意味としてベクトルとして扱ってる領域。まあ脳みその中身だと思ってくればいい。AIのね。ここら辺にそういう学習データあるよねっていうのに直接持っていけると。だから情報がほぼ劣化せずに出てくるから、画像を生成するときもほとんど入力したものと遜色なくスタイルを維持した状態で出せるようになってると。
はいはい。それが何?あのGPTのところの話今。
そう。GPTのところの話でこのマルチモーダルっていうのになってるんだけど、ジェミニはよりひと足早くジェミニの2.0の時からそのマルチモーダル化をしてたのね。だから結構その画像、入れた画像をスタイルを変換したりとかポーズ変えるのってすごい得意だった。
ちょっとひと足早くやっていって、さらに情報が公開されてないんだけど、そこに特化してかなり学習したと思うのね。2から2.5の間に。だから強烈にその元の画像のスタイルを統一したまま変更できるようにチューニングされてる。それがナノバナナっていうものの強さ。
技術の統合と進化
だから最近なんかすげー画像生成性能上がったなって。チャットGPTもバーンって上がったし、なんかナノバナナもすげーぞって思うのは、そういう元々裏で動いてたものが切り離されて統合された。マルチモーダル統合されたからそういう進化がしてるんですよっていう。
なるほどですね。じゃあそれが僕らユーザー側からするとGPTの前の4OMNIのところからだし、GEMINIだと2.0から?
そう、2.0から。GEMINIも元々Imagineっていうモデルが裏で動いてたんだりと一緒。あ、GEMINIも。 なんだけどそれも統合された。
あ、なるほどなるほど。それ統合されたのがだから本当にこの2025年ぐらいの変わり目からっていう感じなんですね。
そう、チャットGPTの4OMNIに統合されたのが今年の3月の末で、GEMINIの方はちょっと早くて2.0がね、確か2024年の年末ぐらいに出てて、その時にそのマルチモーダル統合っていうので、その画像生成と分けずにガッチャンコってして、もう基盤モデルの中にグッと全部突っ込んだみたいな。
そういう進化なんだ。 そう、だから単純に性能が上がったよって捉えてるとこの構造見えないんだけど、全然その仕組みが変わったんですよと。
なるほど。 そう、そういうところを捉えていくとですね、あのナノバナナの話だけじゃなくてだいぶこう大枠の話をしちゃったんだけど。
うんうん。え、でもこういう大枠の話めちゃくちゃ大事じゃない。 そう、大事だと思う。じゃないとさ。
ちゃんと驚いてあげれるよ、バナナに。 そう、じゃん。あ、そうやって分かれてそこが進化したんだなってのは分かるじゃない。
すごーいって。ちゃんと褒めてあげれる。 ちゃんと褒めてあげれるでしょ。なんか落ち着いて驚けるでしょ。なんかさ、うわー、うわーって感じでしょ。
すごいねーって感じでしょ。なんか。 すごいすごいって。
うん、君すごいねーって感じで驚ける。それダンディズムに驚いてほしいのね。
いいと思う。 そうそう。それがね、僕の願いです。
いやすごい。ちょっとダンディズムポイント上がったかもしれない。 ああよかった。ダンディズムポイント上がりましたか。
いやすごくいいんじゃない。なるほどなるほど。
そうやって一貫性を持たした状態で、学習をさらに深めたから、2.0から2.5に上がった時に強烈に驚くような結果になったと思う。
そこはね、どういう風に学習したかは公開されてないんですけど、明らかにそこに特化して性能上がってるんで、
かなりそれで使いやすくなったし、世間を驚かしてるなと思いますと。
利用規約の重要性
みんなすごく驚いて今使っているっていうのが、今技術の話なんだけど、使い方においてちょっとネガティブな話ね。
ネガティブ。 ちょっと落ち着いて使ってよっていう部分が一個あるから、そこちょっと抑えておきたいんだけど、
規約的な話。 真面目な話。 真面目な話。好き勝手に画像を入れすぎ問題。
みんななんか自分の好きなキャラクターとかさ、好き勝手に入れてSNSに投稿してますけど、
趣味の範囲とか公開しないからといって好き勝手に画像を入力していいわけじゃなくてですね、
Googleさんの規約にはちゃんとこういう画像しか入れちゃダメですよっていう規定があります。
基本的に全部自分に権利があるものしか入れられません。 あら、ほとんど入れられないじゃないの。
だから自分が著作権者であるか、著作権者から利用承諾を得ているか、肖像権、表彰権を侵害してないかとか、
フリーの素材だったら素材元の規約守ってるか、AIに入れないでねとかって書いてないかっていう、そういう条件を全部満たしなければ入れちゃダメですよって書いてあるけど誰もそんなのは読まない。
でも落ち着いてほしいと。あんまりキャラクターとかやめた方がいいよっていう。
まあ一応そういう規約ですと。 そういう規約があります。
みんながむしでしょ。 まあ基本ね。ほらでもそういう人見てたら逮捕したくならない?大丈夫?
逮捕?いやいやいや。 逮捕したくならない。
そんなことはないですよ。 そんなことはないですか。
でもそんなこと、そんなのさ、そんなこと言ったら誰も何も使えないよね。
誰も何も使えないし、まあGoogleもね、Googleで自分たちを守るための、まあそういう規約ではあるんですけど。
プロンプトガイドの活用
守り規約ね。 守り規約ではあるものの、一応そういうのあるからっていうのは頭の片隅に入れといてほしいね。
自由に何でも、なんか公開しなければいいんじゃないかっていう話は、なんかなんとなく意識としてあると思うんだけど、実は入れる時点でそういう規約ありますよっていうのを、
なんか新しい機能とか新しいアイディア出てきたときは、一回ちょっとどういう規約あるんだろうぐらいは持っといてほしい。
なるほど、落ち着いて規約ね。規約ちなみにどこで見るのよ。
規約はね、Googleの。 なんか説明書の裏の裏の裏みたいなとこにも書いてあるんでしょこれ。
僕あれなのよ、個人的な話なんだけど、説明書好きなの。 うわあ、それ聞いたことある。
あのガラ系とかの時代ってさ、国語辞典ぐらいの説明書ついてきたでしょ。めっちゃ熱いやつ。あれ全部読まない限り電源入れなかったの。
すごいそれ。 絶対読み切りたかったのね。 多分一生触れない人じゃんそれ。
読むのが楽しくて、説明書好きだから。こんな機能があるのか。 触りながら読むんじゃないの?
違う、もう一回全部読んで、また触りながら読む。2週目3週目するんだけど。 すごいな。
熱ければ熱いほどあんなの楽しいんだよ。 じゃあ車とかも全部読むってこと?
読む。もちろん。読むし、整備士が買ってるサービスマニュアルもちゃんと買うから。3万円ぐらいするんだよ。整備士しか使わないんだけど。
それなに楽しいの? 楽しい。機械の人だからね、元々ね。 ちょっと変わった人だった。
だからさ、最近iPhoneとか開けたときにさ、なんも入ってないから悲しい。国語辞典ついてこないんだと思って。
もう時代はそっちだよね。 そう、時代はそっちなのよ。時代はそっちだから。
え、だったらほんとに、ほんとじゃあキレ事じゃなくてさ、支部長はもう何、この規約とか全部読んでるってこと?
英語だからね。 バナナ。バナナの規約。
バナナの規約というのはもうGoogleのその規約があるんだけど、一応目を通すっていうのはまあ仕事でも使うし。
好きだし。 好きだし。仕事で使う場合はね、こう規約とかちゃんとチェックしておかないと、なんかまずいじゃんっていうので、一応ね、その規約とかは、
ちゃんとどこの範囲まで使って省容量できるかとかは、まあちゃんとチェックしないといけないから、読むし、読むの好きだし。
取説が好きなんだ。 取説めっちゃ好き。だけどiPhone同じくですね、こういう先生へのツールって取説ないから、使って試してねみたいな感じだから。
とりあえず触ってみろみたいな。 そうじゃん。で、まあ規約はまあまあいいわと。
規約言ってね、ちょっとそんな細かいこと言ったら使えないじゃんって話もあるからと。
ただ、ちょっと一個ね、ちゃんと読んでほしいなって思うのは、公式が出してるプロンプトガイドがあるのよ。
プロンプトガイド。 公式がこういう風にしてプロンプト使うと、作るといいですねっていう、公式が出してる説明書あるのね、生成AIの。
なるほど。 チャットGPTにもプロンプトガイド、一応ね、あれユイしか作ってるやつだったかな、でも出てるし、
ジェミニアジェミニでちゃんと公式がナノバナナ使うときは、こういう感じでプロンプト組むとすごくいいですよっていうアドバイスみたいなページあるの、公式の。
そうなんだ。 それは一回読んでほしい。 みんな、インフルエンサーみたいな発信しか見ないんじゃない?
なんかみんな、俺が見つけた新しい使い方だぜっていうのを、今あれか、トゲあったかな。 大丈夫だったもう。
トゲあった、大丈夫?出してて、それをキャッチアップしていくじゃん。あれって結構ね、虫食いというか、ピンポイントすぎるのね。
なるほどね。 まず全体を捉えて、で、大枠だけ捉えたら、特化した使い方を学んでた方が良くて。結構ね、車輪の再発明してる人いるのよ。
なるほどね。 公式プロンプトに書いてあるのに、その人が一生懸命使って発見するみたいな。
なるほど。 あ、そういうことか。書いてあるのにそれを見ずに。
見ずにたどり着くみたいな人がいるのよ。 それすごいけど。
だから、ちょっと規約は一回置いといても、結構公式がプロンプトガイドとか出してるから、そういうのは読んだ方がいい。
それは、それ見てさ、分かるもんなの?
分かる。めっちゃ分かりやすい。 なんか難しくはない。
めちゃくちゃ分かりやすい。
じゃあまずそれを見た方が早いぜってこと?
そう。例えばこんなことができますよっていうのがポンポンポン、まあ本当に10分ぐらいで読めるようなものなんだけど。
え、それどこにあるの?例えばそれ。これさ、今聞いてる人とかさ。
えっとね、例えば。 見たいなって思ったらさ。
じゃあ一個概要欄に。 ググれば出てくるの?
ググれば出てくる。
それはAIに聞いても出てこないの?
AIに聞いたら出てくるとは思うけど。
概要欄に貼っとくとして。でもさ、まあ今後もさ。
ってかあのSNSでね、たぶんGoogleとかフォローしとけば、つぶやいてくれてる。
プロンプトガイド?プロンプトガイドって検索すれば出てくるんかね。
プロンプトガイドで検索しても出てくると思うし。ちょっと待ってね。
そこだよね。ここで聞いてもどうせ見に行かないんでね。
そう。
何て検索すればいいんでしょうみたいな。情弱なんで。
いやいや。出るたびにその公式がどっかから情報出してるんじゃないかなっていうのは、探しに行ったほうがいいって感じかな。
探すリテラシーをつけようってことだね。
そう。一生懸命探さなくても探そうと思えば見つかると思う。そういうものがあるんだっていう意識で探せば。今ちょっと送ったけど。
そっちのほうが早いぜってことね。なんか英語で難しそうやな。
日本語訳すれば大丈夫。
なるほどね。日本語も選べるじゃん。
ジェミニ2.5のフラッシュイメージ生成を最適な結果に導く方法っていうのをGoogleが出してるから。
これやっぱりちゃんと守ったほうがいいんだ。
そう。こうしたプロンプトの例があったりとか、結構当たり前のことしか書いてないっちゃ書いてないけど、こういうスタイル変換ができたりとか、服装変えれたりとか、ロゴをこうやって作れたりとか、おじいちゃんのお茶碗作ってるようなもの出したりとか。
これはこういうプロンプトで細かくやるといいですよとか、なんかポートレートをやるんだったら写真撮るみたいにさ、この写真の条件みたいな。
そういうのを入れてあげるとポートレート的に指示できますよみたいな、そういうことが書いてあるから。
なるほどね。まずこれ見ればいいじゃん。
まずこれ見ていろいろ試していけばいいっていう基本的な説明書があるんで。
なるほどね。
一回落ち着いてこれ見てほしい。
まず落ち着いて、これ何ていうものだっけこれは。
これプロンプトガイドとかって言われるもの。
プロンプトガイド、やばいもう今日めっちゃ有料級だこれ。
他の言い方もあるかもしれないけど、プロンプトガイドとかってやれば大体たどり着けるんじゃないかな。
プロンプトガイドを元に英語で書いてあるし、全部翻訳すると謎の日本語とかにもなっちゃうから、解説してる人もいる。
なるほどね。
プロンプトガイド自体を。そういう人でキャッチアップしてもいいと思う。
なるほどね。まずは説明書読めっていう。
そう、私のおすすめ落ち着きポイントはそこ。公式がそりゃ一番知ってるっしょと。
まずはね、そっから新しい使い方発展していくんだけど、もう生成AIってもう作り手の手を離れて、すごいね、いろんな派生を見せるからそうなんだけど、
まずは説明書よりもっと楽しいよっていう、落ち着こうっていうところ。
それはさ、支部長は専門家だからさ、そういう手順たどるのは当たり前だと思うんだけど、一般人でもそこから当たったほうが結果的に早いの。
結果的に早いと思う。
なんかそういうとこすっ飛ばして、手っ取りバイクを教えてくれるインフルエンサーとかフォローした方が早いみたいに考えてる人。
まあ信用できる人がいれば結構いいんだけど、割と特化してるかなっていう部分はあって、なんかこう体系的に全体を見ようと思ったらやっぱプロンポとガイドの方がいい。
まずは。
そう、なんかすごい尖ったところに行っちゃうから、まず全体こう網羅した後にやったほうが虫食いにならないかな、なんか知識としてね。
なるほどね。
だからその方が好きだから、絶対最初に、だから説明書読むんだけど。自分が知らない機能あると嫌だから。
それは面白いな、ガラケー全部読んで。
読む、絶対いると思う。僕も同じですって人いるはず。
じゃあ今も全部、あらゆる機材そういうこと?
基本的にはもう。
パソコンとかマイクとかレコーダーとか買ってさ、全部読むの?
読む、だけど説明書そんな厚くないのよ、なんか読み応えがない最近の説明書は。マイクとかだってさ、説明書じゃないもん。紙ビローンって開いてさ、英語、中国語、韓国語って書いて、ここにちょっと日本語あるみたいな。
確かに確かに。
そんなのばっかだからさ、最近読んだのはなんかね、電子レンジとかさ、冷蔵庫とか、ああいう説明書もなかなかいいよ。
でもレコーダーは僕は読みますね。知らない機能があるのが嫌だっていうのは分かる。
分かるでしょ。
分かる分かる。
その気持ちでAIいろいろ出てくるんだけど、説明書はないけど、公式が出してる情報はあるから。そこをもうちょっとね、情報収集として落ち着いて見てみると意外といいよという話でございます。
すごい落ち着いたね今日少し。
落ち着いた?
落ち着いた。
まあ今日のトピックこれぐらいなんだけど、こんな感じでね、毎週やっていければなと思ってる。
いやいいと思います。落ち着くポイントが分かるって感じですね。
Nano Banana🍌の技術と活用
そう。なんかやっぱここ見てほしいよっていうのは分かりやすくちょっと。今日は技術的なポイントと、あと活用的なポイントで分けて説明しましたけど。
すごくいいです。
ありがとうございます。
これだってたぶん頑張って毎週配信していくじゃん。1週間整うよねここでね。
整うよね。あ、そっか。
あーって。
よかったよかったって。
あーって。
落ちてほしいのよ本当に。
深呼吸だよねここで。
ここで深呼吸してもらって、そしたら驚きがあるよねまた1週間。
驚きあがる。で、またちょっと見直した視点でバナナ、今回バナナだったけど、あなたはこういうとこが本当にすごいんだって。
そうそう。
驚けるし。
驚いてもらって。
すごいね。で、汎用性の高いプロンプトガイドで落ち着きましょうっていうテクニックも。
なかなかね応用、もうすでにいっぱい使ってる人は当たり前だよって感じかもしれないけど、こっから使う、今から使うよとか、なんかナノバナナがフィギュアの画像を生成するだけのツールだと思ってる人とかは。
下手したらそうなるよね。笑ってるけど。バナナすごいフィギュアってね。
そう、なんかすごい紐づいてる人がいるからそこに。
やっぱSNSだとそういう風になるよね。
あんだけ見たらね。
SNSで一色。
僕もさ、この番組のさ、ちょっとこの原稿を書くためにさ、やっぱSNSでいろんな話見るんだけど、もうやっぱそれぞれさ、リコメントされてそれ一色になるじゃん。すごい量、すごい情報量だ。
なるほどね。
あれはね、落ち着かないね確かにね。わーって全部ギャッチアップしなきゃって気になっちゃうから、やっぱいろんな人がいろんなことしてるから。
でもなんか今回のことでさ、思ったほんとに、バナナだと気づかずにフィギュアだと思ってたじゃん。
そうだね、最初はね。
なんかそんな感じでAIが区別できなさすぎてさ、あれってAIだったんだみたいなこと増えそうで。
増えると思う。
それを防ぐためにもちゃんとAIの現在地は把握しておきたいなと思ったね。
うん、そうだね。やっぱどういうものができるのかっていうのを知っておくと、騙されるっていう方はあれだけど、見つける力は多分つくと思う。
騙されるね。いやほんとオレオレ詐欺の被害に遭うおばあちゃんとかの気持ちじゃん、俺は今ほんとに。なんで騙されるんだろうみたいなことをさ、思うじゃんみんな。
思う思う。
あ、もう俺もいつ騙されてもおかしくないなと思った今日。
いやほんとに、そうよね、見抜けないもんね。
見抜けないし、別に疑ってみないしさ。なんか赤ちゃん、うちの子かわいいとかって言って、ツイートしてたら、あ、親バカがこうじてフィギュア作ったんですね、としか思わないじゃん。
思わない思わない。なんかすごいみんな、あ、すごいこれどこで買えるんですかみたいなコメントがいっぱいついたりとか。
へたしたら3Dプリンター売れるよねそれ。
そう売れる。あ、これできるんだみたいな。
そうだよね。いやびっくりです。
いやいや良かったです。第1回こんな感じでじゃあ。
SNSと情報の影響
良かった良かったです。
皆さんに落ち着いていただければ幸いでございます。
はい。
じゃあそろそろおしまいですね。ありがとうございました。またお会いしましょう。
番組公式ハッシュタグは、シャープ落ち着きAI、ひらがなで落ち着き、アルファベットでAIで落ち着きAIでございます。
はい。番組の感想はコメント欄やXお便りフォームなどで受け付けております。深掘りしてほしい話題とかがあったら是非コメントください。
はい。ちょっと落ち着いたなっていう人は是非星5つのレビューを付けておいてください。お願いします。
お願いします。
それではまた落ち着いて1週間を過ごしていきましょう。
さよなら。
44:58

コメント

スクロール