1. アシカガCAST
  2. Geminiの画像生成はどうして..
2025-03-25 10:33

Geminiの画像生成はどうしてそんなに話題なのか(第802回)

spotify apple_podcasts youtube
Google Geminiの画像生成は、1枚の写真からいろんな向きから見た画像を生成できるます。それを動画生成AIと組み合わせることで人物が振り向く動画などを作れることに、実用的な可能性を感じるといった話をしました。

=== 目次 ===
Geminiの画像生成が「すごい」と話題
1枚の写真から角度を変えた画像を生成
動画生成AIとの組み合わせにも期待
Geminiの画像生成はGoole AI Studioで
実際に色々実験してみた結果
複数画像から新たなシーンを作るのは苦手
-------
#アシカガCAST
デジタル活用のヒントをスキマ時間で。
話題のサービス、注目のソフトウェアの紹介、デジタルツールの活用術など、テック系情報をわかりやすくお届けします。
月〜水 朝8時に更新

■アシカガCAST文字起こし要約|アシカガコウジ|note https://note.com/ashikagacast/m/mbc989fbedb84

■X(Twitter)アカウント
https://twitter.com/ashikagacast

Apple Podcast、Spotify、Google Podcastなどでも配信しています。
■アシカガCASTの聴き方
http://typebot.io/ashikagacast

■アシカガノオト
https://ashikaga.substack.com/

サマリー

Googleの対話型AI、Gemini 2.0 Flashは画像生成に対応しており、SNSで注目を集めています。その実用性や高いクオリティによって、多くの人々がその可能性を感じています。

Gemini 2.0 Flashの登場
アシカガキャスト。 Googleの対話型AIのGeminiが画像生成に対応しました。
Gemini 2.0 Flashというモデルで対応したんですが、SNSでかなり話題になっています。 すごいという実例を目にすることが増えてきました。
これまでも画像生成AIの新しいサービスとか新しい機能が出てくる度に、すごいすごいと言っている人は多かったんですが、今回のGeminiの画像生成に関しては、これまでとはちょっと違う印象を感じています。
地に足がついた感じのすごいという感じですかね。 プロが認めるすごいみたいな印象です。
Gemini 2.0 Flashの画像生成でみんながテストしてみてすごいすごいと言っているのが、一枚の画像をもとに角度を変えた画像を作れることです。
例えば正面を向いた人物の写真から、その人が横を向いている、あるいは後ろを向いているといった画像を作れるんですね。 そしてそのクオリティがすごく高い、違和感のない一貫性のある画像が作れるんですね。
これまでの画像生成AIのすごいという作例は、いくつも生成した画像のうちのたまたまよくできた画像をすごいと言って発表してるんだろうなという印象が強かったんですが、
そういう奇跡の一枚的なものではなくて、こういう画像が作りたいんだというものをコンスタントにちゃんと作れる方が実用性が高いビジネスに使えると思うんですね。
ジェミニが一枚の写真をもとにいろんな角度からの画像を生成できるということが実用性がありそう、これビジネスに使えるんじゃないのという可能性を感じさせるので、これまでとは違った意味でのすごいと感じている人が多いんだと思います。
とはいえ、タレントの写真とか商品写真をAIでちょっと向きを変えて広告に使うなんてことはありえないですよね。あくまでもAIが推測して作っている画像なので、正確なものを作るのはなかなか難しいはずなので、
大事な商品やタレントの顔に使うようなことは今のところはないでしょう。でも逆にタレント性のないモデルの写真とかイメージカット的な、例えば花の写真とかそういうものを別角度から見た画像に変えられるんだったらそういうニーズもありそうですよね。
そしてこのいろんな角度で見たような画像をうまくきれいに作れるということで、動画を作る、動画生成AIと組み合わせて動画をうまく作れるはずだというところに気づいている可能性を感じている人が多いです。
例えば人物の正面の写真から後ろ向きの画像を作って、その2枚の画像を動画生成AIにアップロードして、その2つの画像の間を埋める動画を作ってもらうことで人物が振り向く動画を作る、そういうことができるわけですね。
もちろん最初から正面と後ろ向きの写真を撮影しておけば、その2枚の写真をもとに動画生成AIで動画を作ることができます。あるいは動画生成AIだけの機能でも1枚の写真をもとに振り向いたり横を向くような動画を作ることはできます。
でも今のところ正面の状態と後ろ向いた状態とか横を向いた状態の画像を用意して間を作ってもらう方がクオリティの高いものができる可能性が高いです。
そもそもの正面を向いた人物の画像を人物を作るのが得意な画像生成AIに作ってもらい、後ろ向きや横向きは地味に2.0フラッシュに作ってもらって、それらの画像をもとに動画生成AIで動画を作ってもらってと。
それぞれそこの作業が得意なAIを複数使って最終成果物を作ると。そういうやり方が今のところ現実的なようです。
画像生成AIで一貫性のある人物の写真とかイラストを作ることがなかなか難しかったので同じ人物
同じ服装の人物をいろんな角度で生成して一貫性があって破綻のない高いクオリティで作れているというところでジェミニに可能性を感じている人が多いのでしょう。
なおジェミニでの画像生成は今のところジェミニのサイトからは使えませんでした。ジェミニのサイトでも2.0フラッシュのモデルは選べるんですが、画像を作るようにお願いしても画像は作れませんみたいに言われてしまいます。
じゃあどこから使えるかというとGoogle AI Studioで使うことができます。Google AI Studioでモデルを選ぶところでジェミニ2.0フラッシュ括弧イメージジェネレーション括弧閉じるエクスペリメンタルというのを選びます。
で私も実際にいろいろ試してみたんですが最近やっとで完成した私がお手伝いしている井上ひさとさんのキャラクターのポップンポップのぬいぐるみがあるんですがそのぬいぐるみの正面の写真を元にジェミニで横向きの画像を作ってもらったところをすごくうまく作ってくれました。
でさすがだなぁと思ったんですがじゃあ私が書くようなレベルのシンプルで平面的なイラストでどうなるかも試してみました。これも多分他の人が見れば私が書いたんじゃないかと思われるような私のイラストのテイストをちゃんと引き継いだイラストを作ってくれました。
AIにありがちな変に上手いイラストになってしまったり変に書き込みが細かいイラストになるようなことはなかったです。正面向きの元の絵のポーズをそのまま再現はされてなかったですし、目の書き方も違うとか髪型の解釈も違うとかいろいろ言いたいことはあるんですけども全然絵として破綻はしませんでした。
これはかなりレベルは高いんだなと思いました。絵を書く上での参考にするにはすごくいいなと可能性を感じました。
あと部分的に色を変えるとかは得意そうだなと思ってぬいぐるみの写真の足の部分だけの色を変えてみたんですがこれはかなりいい感じにやってくれました。
あと写真の中の一部を差し替えるのは得意ということで他の人がやった例として人がスマホを持っている写真のスマホの部分だけを別な写真のスマホと差し替えるとか何かの商品パッケージの箱を持っている人物の写真の持っている箱の部分を別な商品と差し替えるとかそういうのはすごくうまくできるようです。
でそれをちょっと拡大解釈して2つの写真をもとに合成した写真を作れるんじゃないかと思ってしまったんですね。
でぬいぐるみの写真とギターの写真をもとにぬいぐるみがギターを弾いているような画像を作ってほしいとお願いしたんですがこれは全くうまくいきませんでした。
やっぱり差し替えるくらいのことが得意なんでしょうね。この差し替えるという作業においてはAIにありがちな変えなくてもいいところにもアレンジを加えてしまうようなことがないみたいなんですね。
差し替える部分だけを変更してくれるようでそこがすごくいいところなんだと思います。
ということでジェミニ2.0フラッシュの画像生成機能がどうしてそんなに話題なのかということについての話でした。
今回は以上です。 アシカガコウジがお届けしました。
キャストアシカガ〜♪
10:33

コメント