皆さんこんにちは、矢野 哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けにAIを分かりやすく解説する番組です。
今回のテーマは、Geminiの新しい画像生成を試すについて話していきます。 はい、ということで今日は、Geminiの新しい画像生成について話していきます。
皆さん、Geminiの新しい画像生成を試してみましたでしょうか? ちょうど先週情報が解禁されて、早速使ってみたよという方もいらっしゃると思います。
で、今日はこのGeminiの新しい画像生成モデルについて話したいと思います。 画像生成を使っている方もいれば、使っていない方もいると思うんですよね。
私は業務で画像生成を使うことがないからと、そっちのトピックはチェックしてないよという方もいらっしゃると思います。
でもですね、今回登場したGeminiの新しい画像生成、映像制作やイラスト作成、そういった使い方だけではなくて、業務にも応用できる可能性を秘めていると思います。
そのため、画像生成に興味がある方はもちろん、画像生成に今まであまり触れてこなかったという方にもチェックしてほしいトピックです。
ぜひ最後までお付き合いください。 今日話すポイントは主に3つです。
1つ目にGeminiの新しい画像生成の概要について、直近で何が起こったのかについて整理します。
2つ目にGeminiの新しい画像生成の特徴について、ChatGPTの画像生成との比較についても話します。
そして最後3点目、画像生成の質を高めるプロンプトテクニックについても話します。
はい、では早速話していきましょう。まず直近で何が起こったのかということを整理したいと思います。
8月に入ってから海外ユーザーの間で、ナノバナナという謎の画像生成モデルが話題になりました。
これはLMアリーナというサイトに登場した画像生成モデルです。
LMアリーナはブラインドテストでモデルの比較テストを行うサイトになります。
例えば、そうですね、私がオフィスで仕事をしている男性の画像を作成してと指示をしたら、LMアリーナでは2枚の画像が作成されます。
で、2枚のうちどちらが好ましい結果なのかというのを人間の方で選択します。
左の画像がいい、右の画像がいいという具合です。
選択後にどの画像生成モデルが使われたのかというのが初めてそこでわかります。
例えば、Aの画像はナノバナナの画像ですと、
Bの画像は○○という画像生成の画像ですと。
つまり、人間のブラインドテストで同じプロンプトで出力された画像Aと画像B、どっちがいいのかということを競わせるようなサイトです。
で、このLMアリーナでものすごく精度が高い画像生成モデルが出てきたと。
で、その画像生成のモデルの名前がナノバナナというものだと。一体何だこれはと。
公式からの説明も何もないし、いやこれどこの画像生成モデルなんだろうと一部ユーザーの間で話題になっていました。
ユーザーの間では、これナノバナナはGoogleが新しく開発している画像生成モデルなんじゃないのという噂はありました。
ただ、Google自体はまだ何も発表していなかったんですね。
そのため、ナノバナナというモデルは謎の画像生成AIということで非常に注目されていました。
で、ちょうど先週Googleも情報解禁しまして、ナノバナナはGoogleが開発している新しい画像生成AIということが判明しました。
コードネームはナノバナナという画像生成モデルだったんですけど、正式名称はジェミニ2.5フラッシュイメージプレビューとなります。
ちょっと長いですね。じゃあこの新しい画像生成、どこで使えるのという話になるんですけど、公式の説明ではAPI経由、これはプログラムからこの画像生成モデルを操作するというものです。
で、あとはGoogle AI Studio。これは開発者向けのツールなんですけど、Googleアカウントがあれば誰でも無料で利用できる。
そうですね、ブラウザーからすぐに試せるGoogleの公式サイトのようなものです。
ちなみにこれはプログラミングの知識というのは全く必要ないです。このAPI経由かGoogle AI Studioで新しいこのナノバナナを試すことができます。
あとは普段私たちが利用しているジェミニのチャット画面、あちらでも利用できるっていうことなんですけど、編集に限定されるんですかね。
ちょっとこの収録時点ではあまり情報が揃ってないので、無料プランでも使えるのかっていうのはすいませんちょっと不確定なんですけど、一番確実なのはGoogle AI Studioから利用することです。
このGoogle AI Studioで新しい画像生成モデルを使う方法、これはいつものようにノートで記事を書きましたので、興味のある方はこちらを参考にしてください。
概要欄にリンクを貼っておきます。ちょっと軽く説明すると非常に簡単です。Google AI Studioにアクセスをして、モデルの選択でナノバナナを選びます。
あとはプロンプトを入力するだけです。非常に簡単なので誰でもすぐに試すことができます。 ここまでGoogleの新しい画像生成の概要について直近で起きたことなどを絡めて話しました。
冒頭でもお話ししたように今まで画像生成AIっていうと趣味で使う場面というのが多かったと思います。
ですが業務でも本格的に活用できる場面が増えてきたなと感じています。 仕事で画像を使う機会って意外と多いんですよね。
それは社内で使う会議資料であったり、クライアントへの提案資料であったり、顧客へ提供する資料などです。
もちろんAIで生成した画像っていうのは明示する必要がありますが、これだけ画像の精度であったり修正できるレベルが高くなってくると本格的に業務で使うことも検討しても良いと思います。
私自身もAIの資料とかニュースレターの配信などで画像生成を使っています。
今はChatGPTとGeminiで画像を同時に生成させています。 良い結果の方を使うというような運用をしています。
ただ今回のアップデートでGeminiが一歩リードした感じはあるかなと思います。
とは言っても、また先でオープンAAもすごい画像生成AIを投入してくると思います。
ChatGPTが画像生成を投入したら今度はGeminiが投入して、でまた次はChatGPTが投入してという。
結構今までこのようなサイクルを繰り返しているので、現時点においてはGeminiの2.5フラッシュプレビュー、これがかなり精度が高いということです。
結構あの面白い使い方している人もいて、例えばの被写体のポージングがあるじゃないですか。
このモデルさんにはこんなポーズをとってほしいと。 でそれをテキストで説明するのではなくて、紙に某人間のような形で絵を描いて
あのこんなポーズをとってほしいとAIに指示をします。 すると紙に書いた割とざっくりした指示でも理解してくれて
被写体のポーズを変えることができます。 あとは動画生成AIへの応用も面白いと思います。
従来の画像生成だったら画像の一貫性がなかなか難しかったんですけど、今回の新しい画像生成ではそうしたイラストの一貫性というのも保ってくれます。
簡単に言うと人物やキャラクターの一貫性を保ってくれると。 で同じ人物やキャラクターで複数の小回り画像を作成します。
でそれを動画生成AIに渡して、そこからスムーズなアニメ動画を作成する。 イメージとしてはパラパラ漫画を画像生成で作って、でそれを動画生成に渡して
スムーズな動きのアニメーションを作成する。そういった使い方も面白いと思います。 こんな感じで画像の一貫性が保てるようになるとアイディア次第でいろいろな使い方ができます。
あとはそうですね例えば不動産関係とかも相性いいのかなと思います。 あの部屋の内覧写真があるじゃないですか
あの内覧写真を実際に撮影して、でそれをジェミニに渡します。 でこの部屋の写真に家具を配置してくださいとか
入居者向けによりイメージしやすい部屋の写真を作成することができます。 あとは家の外観写真を撮影してこの家の外壁の色をグレーに変更してくださいとか
新しく店舗立ち上げにあたって店舗の内装をこんな感じにする。 つまりAIに店舗のイメージ図それを作ってもらって業者さんと打ち合わせをする
そんな使い方もできると思います。そういったリアルの画像を編集する リアルの画像に手を加えて拡張するみたいな使い方を考えるといろいろ活用アイディアが
出てくると思います。 なので今まで画像生成を使うことがなかった人でも実際触ってみると
あ、自分の仕事はこんな感じで応用ができるなという場面があるかもしれません。 Google AI Studioで無料で触れるのでぜひチェックしてみてください
最後にGoogleが公開している画像生成のプロンプトテクニック これを掘り下げてより高精度な画像を生成するためのアプローチについて解説します
Googleが公開しているプロンプトガイドではこのように説明されています Gemini 2.5 Flashの画像生成を使いこなすには次の基本原則を理解する必要があります
それはキーワードを列挙するだけでなくシーンを説明すること このように説明されています
例えば男性、スーツ、オフィスとかキーワードを列挙するのではなくて具体的なシーンを説明するということです
公式ではこのようにも説明されています このモデルの強みは言語を深く理解していることです
物語や説明文の段落はほとんどの場合 関連性のない単語のリストよりも優れた一貫性のある画像を生成します
つまり画像生成のプロンプトをキーワードだけで構成するのではなくて 一つの文章のような形で詳細に解説する方が望ましい結果を得られるということです
例えばリアルな画像を生成したい場合 この時にはカメラのアングルであったりレンズの種類
あとは照明の当て方 そういった詳しい説明まで入れる方がより精度の高い画像を生成できると説明されています
ちょっとサンプルのプロンプトを紹介します ちょっと今から紹介しますね
温かい微笑みを浮かべた高齢の日本人陶芸家の写実的なクローズアップ写真
彼は茶碗を注意深く点検している 舞台は日差しが降り注ぐ工房
85ミリのポートレートレンズで撮影され背景は柔らかくぼかされている こんな感じでレンズの種類をプロンプトに含めるのも有用です
85ミリのポートレートレンズで撮影されとかの部分ですね どうでしょうかこのプロンプト結構意外だったという方も多いんじゃないでしょうか
こんな感じで単なるキーワードの列挙ではなくて 一つの文章のように指示することで画像の精度を上げることができるというわけです
ちなみに画像をアップロードしてその画像に対して何か編集をしたい時 そういった時は次のようなプロンプトにします
私がアップロードした猫の画像を使用し頭に小さな編み物の魔法使いの帽子を追加してください このプロンプトだけで猫の頭に魔法使いの帽子を乗せた画像を生成することができます
もちろん猫の特徴は維持したままです 画像生成AIでありながら指示を深く理解するので修正すべき箇所っていうのを特定のものに限定することもできます
例えばそうですねリビングの写真があるとします でそのリビングのソファーの色だけこれを変えたいときは次のような指示にします
私がアップロードしたリビングの画像を使用し 青いソファーのみをヴィンテージ調の茶色いレザーに変更してください
ソファーのクッションや照明を含む部屋の他の部分は変更しないでください こんな感じで変更すべき箇所っていうのをソファーのみに限定することもできます
結構普段私たちがチャットGPTやGeminiと会話をしているような 会話形式でプロンプトを渡す方が良い結果が出るというわけです
最後にGoogleで紹介されている画像生成のベストプラクティスについていくつか触れたいと思います
結構いろいろあるんですけど効果的なものを4つに絞って紹介したいと思います 具体的な内容にする背景情報と意図を説明する
改善を繰り返す ステップバイステップの採用
詳しく説明していきます まず一つ目が具体的な内容にするというものです
これは先ほどプロンプトの例でも紹介しました キーワードだけではなくてできるだけ具体的な内容にすると
例えばゲームのキャラクターのような画像を生成するとします この時に鎧を着た男性とかではなくて銀の葉っぱの模様が彫られた
装飾的なエルフのプレートアーマー 翼の形をした肩当てがついている
こんな感じで詳細まで詳しく説明していくと 二つ目が背景情報と意図を説明するというものです
例えばロゴを作成してと単純な指示をするよりも次のような指示をする方が好ましいです 高級でミニマリストなスキンケアブランドのロゴを作成してください
このように背景情報や意図をプロンプトに含めた方が良い結果が得られるというものです そして3つ目が改善の繰り返しです
これは最初の画像をベースに改良を加えていった方がより素晴らしい結果を得られるというものです
例えばそうですねあるカフェの画像を作成するとします で指示をしてジェミニが画像を作成してくれます
そこからさらにこのように続けます 素晴らしい画像ですが照明をもう少し温かくしてもらえますか
こんな感じですね 画像に配置されている人物の表情をもう少し真剣なものに変えてくださいとか
笑顔にしてくださいとか ジェミニの画像生成、画像の一貫性を保持することに優れているので何を修正すべきか
何を修正しないかということをしっかり説明することで 画像の改良を加えることができます
従来の画像生成AIだと画像を修正していくたびに元々の画像のスタイルやトーンなどが徐々に変化していきます
一方でジェミニの新しい画像生成は一貫した画像を保持することができるので 会話を重ねても元の画像の一貫性を保持しやすいです
つまり会話を重ねた修正ができるというのもジェミニの新しい画像生成の特徴と言え ます
そして最後4つ目がステップバイステップの採用 これあの簡単に言うと画像生成の流れをステップごとに分割するというものです
例えば森の中に祭壇があってそこに剣が刺さっているような ちょっとRPG風なイラストをイメージしてみてください
これをステップバイステップで採用すると次のようなアプローチになります まずAIに夜明けの静かな森の背景を作成してくださいと背景だけ作成させます
で次にこのように指示をします では次にその背景の前に古代の石の祭壇を追加してくださいと
で石の祭壇が追加されたらさらにこのように指示をします では最後にその石の祭壇の上に光り輝く剣を1本置いてくださいと
つまり一度の指示で画像生成をするのではなくて オブジェクトごとに従ってステップごとに分けると背景
祭壇あとは光り輝く剣 この場合は3ステップに分割をしていると
特に画像が複雑になればなるほどこうしたステップバイステップで作成していく手順 これもおすすめです
以上がグーグルでも紹介されている画像生成のベストプラクティスとなります 具体的な内容にする背景情報と意図を説明する
改善を繰り返す そして複雑な画像はステップバイステップのアプローチを採用する
後でこの新しい画像生成を試す方はぜひこのベストプラクティスも参考にしてください はいそれでは今日のポイントをまとめます