Geminiの新しい画像生成AIを試す(Gemini 2.5 Flash Image Preview)

Geminiの新しい画像生成の概要

皆さんこんにちは、矢野哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けにAIを分かりやすく解説する番組です。

今回のテーマは、Geminiの新しい画像生成を試すについて話していきます。はい、ということで今日は、Geminiの新しい画像生成について話していきます。

皆さん、Geminiの新しい画像生成を試してみましたでしょうか? ちょうど先週情報が解禁されて、早速使ってみたよという方もいらっしゃると思います。

で、今日はこのGeminiの新しい画像生成モデルについて話したいと思います。画像生成を使っている方もいれば、使っていない方もいると思うんですよね。

私は業務で画像生成を使うことがないからと、そっちのトピックはチェックしてないよという方もいらっしゃると思います。

でもですね、今回登場したGeminiの新しい画像生成、映像制作やイラスト作成、そういった使い方だけではなくて、業務にも応用できる可能性を秘めていると思います。

そのため、画像生成に興味がある方はもちろん、画像生成に今まであまり触れてこなかったという方にもチェックしてほしいトピックです。

ぜひ最後までお付き合いください。今日話すポイントは主に3つです。

1つ目にGeminiの新しい画像生成の概要について、直近で何が起こったのかについて整理します。

2つ目にGeminiの新しい画像生成の特徴について、ChatGPTの画像生成との比較についても話します。

そして最後3点目、画像生成の質を高めるプロンプトテクニックについても話します。

はい、では早速話していきましょう。まず直近で何が起こったのかということを整理したいと思います。

8月に入ってから海外ユーザーの間で、ナノバナナという謎の画像生成モデルが話題になりました。

これはLMアリーナというサイトに登場した画像生成モデルです。

LMアリーナはブラインドテストでモデルの比較テストを行うサイトになります。

例えば、そうですね、私がオフィスで仕事をしている男性の画像を作成してと指示をしたら、LMアリーナでは2枚の画像が作成されます。

で、2枚のうちどちらが好ましい結果なのかというのを人間の方で選択します。

左の画像がいい、右の画像がいいという具合です。

選択後にどの画像生成モデルが使われたのかというのが初めてそこでわかります。

例えば、Aの画像はナノバナナの画像ですと、

Bの画像は○○という画像生成の画像ですと。

つまり、人間のブラインドテストで同じプロンプトで出力された画像Aと画像B、どっちがいいのかということを競わせるようなサイトです。

で、このLMアリーナでものすごく精度が高い画像生成モデルが出てきたと。

で、その画像生成のモデルの名前がナノバナナというものだと。一体何だこれはと。

公式からの説明も何もないし、いやこれどこの画像生成モデルなんだろうと一部ユーザーの間で話題になっていました。

ユーザーの間では、これナノバナナはGoogleが新しく開発している画像生成モデルなんじゃないのという噂はありました。

ただ、Google自体はまだ何も発表していなかったんですね。

そのため、ナノバナナというモデルは謎の画像生成AIということで非常に注目されていました。

で、ちょうど先週Googleも情報解禁しまして、ナノバナナはGoogleが開発している新しい画像生成AIということが判明しました。

コードネームはナノバナナという画像生成モデルだったんですけど、正式名称はジェミニ2.5フラッシュイメージプレビューとなります。

ちょっと長いですね。じゃあこの新しい画像生成、どこで使えるのという話になるんですけど、公式の説明ではAPI経由、これはプログラムからこの画像生成モデルを操作するというものです。

で、あとはGoogle AI Studio。これは開発者向けのツールなんですけど、Googleアカウントがあれば誰でも無料で利用できる。

そうですね、ブラウザーからすぐに試せるGoogleの公式サイトのようなものです。

ちなみにこれはプログラミングの知識というのは全く必要ないです。このAPI経由かGoogle AI Studioで新しいこのナノバナナを試すことができます。

あとは普段私たちが利用しているジェミニのチャット画面、あちらでも利用できるっていうことなんですけど、編集に限定されるんですかね。

ちょっとこの収録時点ではあまり情報が揃ってないので、無料プランでも使えるのかっていうのはすいませんちょっと不確定なんですけど、一番確実なのはGoogle AI Studioから利用することです。

このGoogle AI Studioで新しい画像生成モデルを使う方法、これはいつものようにノートで記事を書きましたので、興味のある方はこちらを参考にしてください。

概要欄にリンクを貼っておきます。ちょっと軽く説明すると非常に簡単です。Google AI Studioにアクセスをして、モデルの選択でナノバナナを選びます。

あとはプロンプトを入力するだけです。非常に簡単なので誰でもすぐに試すことができます。ここまでGoogleの新しい画像生成の概要について直近で起きたことなどを絡めて話しました。

新しい画像生成AIの特徴

ここからはこの新しい画像生成の特徴について深掘りしたいと思います。新しい画像生成何がすごいのという話です。

これあの端的に言うと画像の一貫性を保持する機能というのが他の画像生成に比べて非常に高いです。

画像生成AIの弱点としてある画像を修正するときに微妙な変更が入ってしまうんですね。そうですね例えばあるモデルさんが写っている写真をイメージしてください。

そうですねスーツを着た男性のモデルにしましょうか。でこの画像に対して例えば男性のスーツの色を変えてとか

男性のスーツをカジュアルな衣装に変えてというふうに修正の指示をしたときに微妙に男性の画像も修正されていくんですね。

場合によっては男性がもうちょっと別人のような人になってしまうと。でそうした従来の画像生成の弱点とも言うべき部分を

このGoogleの新しい画像生成は克服していると言えます。実際私もこれ触ったんですけど結構驚きました。

あの元の画像を保持したまま修正を加えるこのタスクに非常に優れていると思います。画像生成AIで言うとChatGPTも画像生成を出しています。

で私の方で比較したところChatGPTよりも画像の一貫性を保持するこの部分においてはChatGPTよりも精度が高いと思います。

実際にLMアリーナのベンチマークのテスト結果ではオープンAIよりもこの Geminiの新しい画像生成の方が精度が高いという結果が出ています。

一応誤解のないように言うとオープンAIの画像生成AIも一貫した画像の保持というのは可能です。

でもGoogleの今回新しくリリースされた画像生成AIと比較した時にGoogleの方が精度が高いというわけです。

画像生成AIってリアルな画像を生成できるかどうかっていうのがこれまでの注目点だったと思います。

ただリアルな画像を生成できる、綺麗な画像を生成できる、これの性能というのは結構飽和点に達してきていると思うんですよね。

どの画像生成AIを使ってもAIが作った画像か見分けることは困難になっています。

どの画像生成AIもかなりレベルが上がってきていると。でも元の画像を保持したまま修正を加える、こういったタスクではまだ難しい部分があったと。

そうした従来では難しいとされていた部分をGoogleの新しい画像生成AIは克服してきたというわけです。

応用可能性と活用方法

ここでこう疑問に思う方もいるかもしれません。画像の一貫性を保持できるとどういったことに役立つんですかと。

元の画像を保持できるこの性能に長けているだけで結構いろいろな応用ができます。例えば、私がアパレル関係の仕事をしているとします。

画像生成AIがその画像の一貫性を保持できる機能に長けていると、例えばモデルさんの画像と商品の画像を用意して、その2つの画像を合体、統合するようなことができます。

例えば、モデルの方に私がアップロードした服装を着用させてくださいと、夏の新作を着用させてください。

モデルの方に弊社の新製品であるサングラスを着用させてください。秋冬の新作のバッグを持たせてください。

そうするとモデルの方の一貫性を保持しながら、服装やあとはバッグ、そういった小物だけを差し替えた写真を作ることができると。

実際私はあの実験でモデルの画像とサングラスとバッグの画像を用意して、次のような指示を行いました。

このモデルに私がアップロードしたサングラスとバッグを持たせてください。こうした指示でもかなり高い精度で画像の統合ができます。

もちろん背景も自由に差し替えることができます。例えばモデルの方が写っている背景がオフィスの画像があるとします。

オフィスの背景からカフェの背景に変更してとかですね。画像を高い精度で保持できるので、背景を変更しても被写体の画像というのはそのまま保持してくれます。

つまり逆ものできるということです。被写体を残して背景を全部削除してくださいとか。

例えば広告関係者の方、そういった方が新しくプロジェクトを打ち合わせるときにこんな感じで進めていきますみたいなラフ案を新しい画像生成モデルを使って進めていくのも面白いと思います。

業務での画像生成の可能性

冒頭でもお話ししたように今まで画像生成AIっていうと趣味で使う場面というのが多かったと思います。

ですが業務でも本格的に活用できる場面が増えてきたなと感じています。仕事で画像を使う機会って意外と多いんですよね。

それは社内で使う会議資料であったり、クライアントへの提案資料であったり、顧客へ提供する資料などです。

もちろんAIで生成した画像っていうのは明示する必要がありますが、これだけ画像の精度であったり修正できるレベルが高くなってくると本格的に業務で使うことも検討しても良いと思います。

私自身もAIの資料とかニュースレターの配信などで画像生成を使っています。

今はChatGPTとGeminiで画像を同時に生成させています。良い結果の方を使うというような運用をしています。

ただ今回のアップデートでGeminiが一歩リードした感じはあるかなと思います。

とは言っても、また先でオープンAAもすごい画像生成AIを投入してくると思います。

ChatGPTが画像生成を投入したら今度はGeminiが投入して、でまた次はChatGPTが投入してという。

結構今までこのようなサイクルを繰り返しているので、現時点においてはGeminiの2.5フラッシュプレビュー、これがかなり精度が高いということです。

結構あの面白い使い方している人もいて、例えばの被写体のポージングがあるじゃないですか。

このモデルさんにはこんなポーズをとってほしいと。でそれをテキストで説明するのではなくて、紙に某人間のような形で絵を描いて

あのこんなポーズをとってほしいとAIに指示をします。すると紙に書いた割とざっくりした指示でも理解してくれて

被写体のポーズを変えることができます。あとは動画生成AIへの応用も面白いと思います。

従来の画像生成だったら画像の一貫性がなかなか難しかったんですけど、今回の新しい画像生成ではそうしたイラストの一貫性というのも保ってくれます。

簡単に言うと人物やキャラクターの一貫性を保ってくれると。で同じ人物やキャラクターで複数の小回り画像を作成します。

でそれを動画生成AIに渡して、そこからスムーズなアニメ動画を作成する。イメージとしてはパラパラ漫画を画像生成で作って、でそれを動画生成に渡して

スムーズな動きのアニメーションを作成する。そういった使い方も面白いと思います。こんな感じで画像の一貫性が保てるようになるとアイディア次第でいろいろな使い方ができます。

あとはそうですね例えば不動産関係とかも相性いいのかなと思います。あの部屋の内覧写真があるじゃないですか

あの内覧写真を実際に撮影して、でそれをジェミニに渡します。でこの部屋の写真に家具を配置してくださいとか

入居者向けによりイメージしやすい部屋の写真を作成することができます。あとは家の外観写真を撮影してこの家の外壁の色をグレーに変更してくださいとか

新しく店舗立ち上げにあたって店舗の内装をこんな感じにする。つまりAIに店舗のイメージ図それを作ってもらって業者さんと打ち合わせをする

そんな使い方もできると思います。そういったリアルの画像を編集するリアルの画像に手を加えて拡張するみたいな使い方を考えるといろいろ活用アイディアが

出てくると思います。なので今まで画像生成を使うことがなかった人でも実際触ってみると

プロンプトの重要性

あ、自分の仕事はこんな感じで応用ができるなという場面があるかもしれません。 Google AI Studioで無料で触れるのでぜひチェックしてみてください

最後にGoogleが公開している画像生成のプロンプトテクニックこれを掘り下げてより高精度な画像を生成するためのアプローチについて解説します

Googleが公開しているプロンプトガイドではこのように説明されています Gemini 2.5 Flashの画像生成を使いこなすには次の基本原則を理解する必要があります

それはキーワードを列挙するだけでなくシーンを説明することこのように説明されています

例えば男性、スーツ、オフィスとかキーワードを列挙するのではなくて具体的なシーンを説明するということです

公式ではこのようにも説明されていますこのモデルの強みは言語を深く理解していることです

物語や説明文の段落はほとんどの場合関連性のない単語のリストよりも優れた一貫性のある画像を生成します

つまり画像生成のプロンプトをキーワードだけで構成するのではなくて一つの文章のような形で詳細に解説する方が望ましい結果を得られるということです

画像生成のベストプラクティス

例えばリアルな画像を生成したい場合この時にはカメラのアングルであったりレンズの種類

あとは照明の当て方そういった詳しい説明まで入れる方がより精度の高い画像を生成できると説明されています

ちょっとサンプルのプロンプトを紹介しますちょっと今から紹介しますね

温かい微笑みを浮かべた高齢の日本人陶芸家の写実的なクローズアップ写真

彼は茶碗を注意深く点検している舞台は日差しが降り注ぐ工房

85ミリのポートレートレンズで撮影され背景は柔らかくぼかされているこんな感じでレンズの種類をプロンプトに含めるのも有用です

85ミリのポートレートレンズで撮影されとかの部分ですねどうでしょうかこのプロンプト結構意外だったという方も多いんじゃないでしょうか

こんな感じで単なるキーワードの列挙ではなくて一つの文章のように指示することで画像の精度を上げることができるというわけです

ちなみに画像をアップロードしてその画像に対して何か編集をしたい時そういった時は次のようなプロンプトにします

私がアップロードした猫の画像を使用し頭に小さな編み物の魔法使いの帽子を追加してくださいこのプロンプトだけで猫の頭に魔法使いの帽子を乗せた画像を生成することができます

もちろん猫の特徴は維持したままです画像生成AIでありながら指示を深く理解するので修正すべき箇所っていうのを特定のものに限定することもできます

例えばそうですねリビングの写真があるとしますでそのリビングのソファーの色だけこれを変えたいときは次のような指示にします

私がアップロードしたリビングの画像を使用し青いソファーのみをヴィンテージ調の茶色いレザーに変更してください

ソファーのクッションや照明を含む部屋の他の部分は変更しないでくださいこんな感じで変更すべき箇所っていうのをソファーのみに限定することもできます

結構普段私たちがチャットGPTやGeminiと会話をしているような会話形式でプロンプトを渡す方が良い結果が出るというわけです

最後にGoogleで紹介されている画像生成のベストプラクティスについていくつか触れたいと思います

結構いろいろあるんですけど効果的なものを4つに絞って紹介したいと思います具体的な内容にする背景情報と意図を説明する

改善を繰り返すステップバイステップの採用

詳しく説明していきますまず一つ目が具体的な内容にするというものです

これは先ほどプロンプトの例でも紹介しましたキーワードだけではなくてできるだけ具体的な内容にすると

例えばゲームのキャラクターのような画像を生成するとしますこの時に鎧を着た男性とかではなくて銀の葉っぱの模様が彫られた

装飾的なエルフのプレートアーマー翼の形をした肩当てがついている

こんな感じで詳細まで詳しく説明していくと二つ目が背景情報と意図を説明するというものです

例えばロゴを作成してと単純な指示をするよりも次のような指示をする方が好ましいです高級でミニマリストなスキンケアブランドのロゴを作成してください

このように背景情報や意図をプロンプトに含めた方が良い結果が得られるというものですそして3つ目が改善の繰り返しです

これは最初の画像をベースに改良を加えていった方がより素晴らしい結果を得られるというものです

例えばそうですねあるカフェの画像を作成するとしますで指示をしてジェミニが画像を作成してくれます

そこからさらにこのように続けます素晴らしい画像ですが照明をもう少し温かくしてもらえますか

こんな感じですね画像に配置されている人物の表情をもう少し真剣なものに変えてくださいとか

笑顔にしてくださいとかジェミニの画像生成、画像の一貫性を保持することに優れているので何を修正すべきか

何を修正しないかということをしっかり説明することで画像の改良を加えることができます

従来の画像生成AIだと画像を修正していくたびに元々の画像のスタイルやトーンなどが徐々に変化していきます

一方でジェミニの新しい画像生成は一貫した画像を保持することができるので会話を重ねても元の画像の一貫性を保持しやすいです

つまり会話を重ねた修正ができるというのもジェミニの新しい画像生成の特徴と言えます

そして最後4つ目がステップバイステップの採用これあの簡単に言うと画像生成の流れをステップごとに分割するというものです

例えば森の中に祭壇があってそこに剣が刺さっているようなちょっとRPG風なイラストをイメージしてみてください

これをステップバイステップで採用すると次のようなアプローチになりますまずAIに夜明けの静かな森の背景を作成してくださいと背景だけ作成させます

で次にこのように指示をしますでは次にその背景の前に古代の石の祭壇を追加してくださいと

で石の祭壇が追加されたらさらにこのように指示をしますでは最後にその石の祭壇の上に光り輝く剣を1本置いてくださいと

つまり一度の指示で画像生成をするのではなくてオブジェクトごとに従ってステップごとに分けると背景

祭壇あとは光り輝く剣この場合は3ステップに分割をしていると

特に画像が複雑になればなるほどこうしたステップバイステップで作成していく手順これもおすすめです

以上がグーグルでも紹介されている画像生成のベストプラクティスとなります具体的な内容にする背景情報と意図を説明する

改善を繰り返すそして複雑な画像はステップバイステップのアプローチを採用する

後でこの新しい画像生成を試す方はぜひこのベストプラクティスも参考にしてくださいはいそれでは今日のポイントをまとめます

Geminiの画像生成の解説

一つ目にジェミニの新しい画像生成について解説しましたジェミニ2.5フラッシュイメージプレビューというモデルです

使う方法はいくつかありますがおすすめはgoogle ai スタジオとなります二つ目にこの新しい画像生成モデルの特徴は何といっても画像の一貫性を保持できる

ことにあります画像の一貫性を保持する能力

これはChatGPTの画像生成AIよりも性能が高いです三つ目により良い画像を生成するためのプロンプトテクニックを紹介しました

プロンプトテクニックの紹介

一番のポイントはキーワードで画像を生成するのではなくて AIと会話をするように文章で詳細な指示をした方がアウトプットの精度は上がります

はい今日はこの辺ということで本日もお付き合いいただきありがとうございました今週もお便りをいただいていますありがとうございます

ちょっと読みますね 8月にこのポッドキャストを発見し一話を聞くだけのつもりが一気にすべて聞いてしまいました

私自身は営業職をしておりAIとは無関係だと思っていましたが仕事用のパソコンにコパイロットが搭載されているのに気づき

試しに顧客の情報や最初のトピックを検索してみるといとも簡単に情報収集できるのに驚きました

マイクロソフトオフィスを使っているユーザーも多いと思いますので取り上げていただけたら幸いです

まだまだ暑い日が続きますがお体をご慈愛いただきご活躍くださいお便りありがとうございます

今の時点で80話以上エピソードがあるのであの全部聞いていただいてありがとうございます会社がマイクロソフトやGoogleワークスペースを契約していて

その関係でAIに触れる人も多いですよねちょっと先であのマイクロソフト関連も取り上げたいと思います

もともとマイクロソフトオープンAIに多額の出資をしていて非常に関係性が強いんですねでそういった関係もあってオープンAIのモデルを使っています

ただ最近は自社製のAIモデルも開発中でそれこそ先週自社製のあの初の音声AIのMAIボイスと

あとは基盤モデルのMAIワンプレビューというモデルが発表されましたいずれにしろマイクロソフト関連の内容も先でトピックを取り上げたいと思います

お手入れありがとうございました番組ではこのように耳で学べるAIを毎週発信しています

通勤中や家事の合間にAI情報をキャッチアップできます毎週水曜朝に更新していますのでぜひフォローをお願いします

そしておすすめの生成AIツールをまとめた資料も配布しています興味のある方はこちらもぜひ概要欄にリンクを貼っておきます

お相手は耳で学ぶAIの矢野てっぺいでしたまた次の配信でお会いしましょう

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

矢野哲平

感想

サマリー

目次

総スター数

コメント

感想を書く

Geminiの新しい画像生成AIを試す(Gemini 2.5 Flash Image Preview)

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

矢野 哲平

感想

サマリー

目次

総スター数

コメント

感想を書く

矢野哲平