1. 耳で学ぶAI、ロボシンク
  2. #63 CatGPTの新しい画像生成が..
2025-04-02 21:47

#63 CatGPTの新しい画像生成が無料プランでも!4o Image Generationを試す

✍️内容

ChatGPTから新しくリリースされた画像生成 4o Image Geneartionについて話します。概要や使い方、ユースケースなど。

以前のDALL-E 3との違いを交えながらChatGPTの新しい画像生成について話します。

---

おすすめの生成AIツールをまとめた資料を配布中🎉

資料を受け取る→⁠⁠⁠https://bit.ly/3Cq9LDG⁠

---

🔗リンク

RKB x コテンラジオ樋口さん x 矢野の収録回

Adobe Firefly

サムアルトマンのポスト

---

「耳で学ぶAI」ではChatGPTやGemini、Claudeなど生成AIを初心者・中級者向けに分かりやすく解説します。

---

👨‍💻パーソナリティ: 矢野哲平

「AIを分かりやすく、楽しく」をコンセプトにポッドキャストやnoteでAI情報を発信。株式会社root c代表取締役。福岡出身。

note

X: 矢野哲平

---

📩番組の感想や要望はこちら

⁠https://forms.gle/VMyVYWzHSNKZFu787

サマリー

今回のエピソードでは、ChatGPTの新しい画像生成機能「4o Image Generation」について詳しく解説しています。この機能は、以前のDally3に比べて精度が向上し、特に日本語の文字入れが改善されています。また、ユーザーからの反響も大きく、多様なユースケースが考えられることが強調されています。フォーオイメージジェネレーションによるジブリ風の画像生成が話題になっており、多くのユーザーがこれを試みていますが、著作権や倫理に関する懸念も浮上しています。このエピソードでは、アドビのFireflyにおける権利回りのクリアさも紹介されています。

新しい画像生成機能の紹介
皆さんこんにちは、矢野哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けにAIを分かりやすく解説する番組です。
今回のテーマは、ChatGPTの新しい画像生成が無料プランでも、4o Image Generationを試す、について話していきます。
先日、ChatGPTに新しい画像生成の機能が追加されました。4o Image Generationという機能となります。
この新しい画像生成について、何がどう変わったのか、そしてどうやって使うのか、あとはユースケースなんかも紹介したいと思います。
はい、ということで今日は、ChatGPTの画像生成について話していきます。
皆さん、ChatGPTの新しい画像生成、4o Image Generationは使ってみましたでしょうか。ちょっと長いですね、名前が。
これ、先週OpenAAから発表された新しい画像生成となります。
で、なぜこの新しい画像生成を今回話すのかというと、かなりですね、以前の画像生成に比べて精度が上がっているんですよね。
1段階上がったとかじゃなくて、感覚的に言うと、そうですね、数段階ぐらい性能が上がっていると思います。
で、今までChatGPTではDally3という画像生成が利用できていました。
ただこのDally3なんですけど、他のAIと比べた時に、ちょっとこう画像生成の精度というのが結構落ちてくるんですね。
で、それこそGeminiの画像生成なんかと比べても結構精度が落ちると。
一方で今回新しく発表された4o Image Generation、こちらはですね、かなり精度が上がってきています。
なのでChatGPTユーザーにとっては朗報かなと思います。そのため今日話そうと思いました。
で、あとは先週この画像生成が発表されてから、結構お便りでもこの画像生成について取り上げてほしいという声をいただきました。
私、AIのニュースレターというのをやってるんですけど、ニュースレターでもですね、先行して紹介したんですけど、やっぱり反響が大きかったですね。
なので今日はこの画像生成を取り上げたいと思います。
今日話すポイントは主に3つとなります。
1つ目に、そもそも4o Image Generationって何ですかと、概要のお話をします。
2つ目に、従来の画像生成のDally3との違いについて解説します。
そして3点目に、4o Image Generationの登場によって紛失したAIと著作権周りの話についても触れたいと思います。
4o Image Generationの使い方
はい、では早速話していきましょう。
4o Image Generation、ちょっと名前が長いんですけど、OpenAIの最新の画像生成となります。
もともとOpenAIにはDally3という画像生成のモデルがありました。
で、てっきり次はですね、Dally4かなと思ってたんですけど、ちょっと名前が変わってきましたね。
4o Image Generationという名前です。
で、この画像生成の使い方を説明すると、チャットボックスの、チャットGPTを開くとチャットボックスがありますよね。
で、そのチャットボックスの右側に3つの点があるアイコンがあります。
で、こちらをクリックすると画像を作成するという項目が出てきます。
で、これをクリックして、あとはプロンプトを入力するだけで、この4o Image Generationは使うことができます。
ちなみにプロンプトは英語でも日本語でも大丈夫です。
で、ちょうどですね、収録日が今日4月1日なんですけど、
ちょうど収録日の今日、OpenAIから全ユーザーにも使えるようになったと情報が公開されました。
なので、有料プランでも無料プランでも利用できるというわけです。
で、1点補足すると、無料プランの方でも画像生成はできるようになっています。
ただ、かなり画像生成のスピードが遅いので、おそらくこのポッドキャストが公開される時でもですね、結構画像生成までに時間がかかると思います。
で、あと無料ユーザーの場合、1日あたり3回までの制限があるようです。
ここら辺の生成回数の上限というのは増減すると思うので目安程度でお願いします。
ちなみに画像生成をする時のプロンプトテクニックについてちょっと説明したいと思います。
基本的にですね、画像生成をする時にプロンプトには5つの要素を含めるのがおすすめです。
スタイル、オブジェクト、シーン、背景、あとはトーンですね。
一つずつ説明します。
まず一つ目にスタイルというのは画像全体のスタイルとなります。
例えばイラストの画像が欲しいのか、それとも油絵なのか、実写のような写真なのかということですね。
次にオブジェクトというのはその画像の中に含まれる物体となります。
例えば建物の画像なのか、それとも人間が写っている画像なのかですね、オブジェクト。
画像生成をする時には基本的にはこのスタイルとオブジェクトというのはヒスでプロンプトに入れることをおすすめします。
どういったスタイルの画像なのか、その画像の中にどういったオブジェクトが配置されているのかですね。
ここからは補足としてこれを入れた方がいいよという要素になってきます。
精度とユースケースの進化
まずシーンですね。
例えばそうですね、仲の良いカップルがレストランで楽しそうに食事をしているシーンとかですね。
次に背景、これはオブジェクトの背景ですね。
例えばオブジェクトが主役で、その背景はどうするのかということです。
そうですね、例えば3体のアンドロイドのロボットが戦っているシーンを生成してくださいと。
背景は荒廃したビルの街並みとかですね。
次にトーン、これは画像の雰囲気となります。
例えば神秘的な画像なのか、ホラーのように怖いトーンの画像なのかと、あの画像のトーンを指定すると。
スタイル、オブジェクト、シーン、背景、あとはトーンですね。
これら5つの要素を意識しながらプロンプトを書くと、期待通りの画像を生成することができます。
はい、ちょっと話が逸れましたが、公式の発表によるとこの4O Image Generation、数週間以内にAPIの実装も予定しているということです。
APIが実装されるとまた別の使い方もできそうですよね。
では次に従来のダリスリーと何が違うのかということを説明します。
大きく分けて3つの点が違うと思います。
1つ目が自然な画像、2つ目が画像の文字入れ、3つ目が一貫したスタイルの維持となります。
ちょっとこれ一つずつ詳しく説明します。
まず1つ目、自然な画像です。
冒頭でも少し触れたように、従来のダリスリーにあったAIっぽい画像というのがなくなっています。
かなり自然な画像を生成できるようになっていると思います。
ダリスリーを使ったことがある人はわかると思うんですけど、ダリスリーで生成した画像って、いかにもAIが生成したような画像なんですよね。
特に人物画像とかはその違いが顕著でした。
新しいこのフォーオイメージジェネレーションでは、かなり自然な画像を生成できるようになっていると、シンプルに画像生成の精度が上がっていると思います。
そして2点目が画像の文字入れ。
もともとダリスリーでも画像に対して文字を入れるということができました。
例えば交差点でプラカードを持っている男性の画像を生成してと、そのプラカードにはChatGPTと書かれていますと、
こういった画像の中に文字を入れるというものですね。
これ英語では割とうまく機能していたんですけど、日本語の文字入れがかなり不得意だったわけです。
それが今回のアップデートでは、日本語の文字入れも問題なくできるようになっています。
1点だけ補足すると、必ずしも100%の精度で日本語の文字入れが成功するわけではありません。
中には文字化けのような形で出力されるケースっていうのもあるんですけど、
以前に比べてかなりその日本語の文字入れの精度っていうのは上がっています。
そして3点目が一貫したスタイルの維持。
例えば、そうですね、私が写っている写真をアップロードしたとします。
この画像を参照して人物の部分だけを、例えば他の人物に差し替えてくださいと。
こういった指示も精度よく通るようになっています。
いわゆるイメージトゥイメージのタスクの精度っていうのがすごく高いです。
個人的にはですね、この一貫したスタイルの維持とか、
あとはアップロードした画像に対してその画像のスタイルを保ったまま他の処理をすると。
そういったことへの精度がかなり高いと思います。
ちょっと一旦まとめますね。
以前よりも自然な画像を生成できるようになったと。
そして以前よりも画像の文字入れ、特に日本語の文字入れも問題なくできるようになったと。
そして一貫したスタイルの維持もかなり精度が良くなったというわけです。
この一貫したスタイルの維持に関しては、もう少し掘り下げてちょっと解説したいと思います。
例えばですね、ある企業の製品があるとします。
そうですね、日焼け止めにしましょうか。
この日焼け止めの画像をアップロードして、その背景を画像生成してもらうと。
例えば宣伝用のバナー画像を作成したりとかですね。
その他にも、例えば日焼け止めの画像と、あとは女性の画像をアップロードして、
この女性が日焼け止めを持って微笑んでいる姿を生成してと、
そうした画像生成もできるわけです。
つまり複数の画像をアップロードして、それを素材に使ってですね、何か新しい画像を生成する。
こうしたタスクの精度っていうのもかなり高いです。
元の画像のスタイルっていうのが、結構精度良く保持されています。
例えばここで言うと、日焼け止めの製品の外観とかですね。
ただ、4 Image Generationの画像生成スピードっていうのは、現時点ではかなり遅いです。
無料プランも遅いですし、有料プランも遅いです。
ただ、APIを近々実装すると言っているので、APIが実装されればですね、
ここら辺は自動化して、例えばその複数のラフ案なんかもバーッと生成して、
自動的にGoogleドライブに格納していくと。
それを元に会議でいろいろ話を進める。
そんな使い方もできるようになると思います。
こうした画像をアップロードして、何かしらの画像を生成するというのは、
イメージとイメージという風に言われるんですけど、
いろいろなユースケースが考えられると思うんですよね。
例えば、あるイベント会場の下見に行って、社員がそこのイベント会場を撮影するとします。
その撮影した画像を元に、当日配置予定のオブジェクトなんかを指定して、
当日の完成イメージなんかを作ったりとかですね。
あとは不動産のケースで言うと、例えばその空き部屋の写真を撮影します。
それをアップロードして、その空き部屋に家具が置かれているような画像を生成すると。
実際に家具を置くと、部屋の雰囲気はこんな風になりますよと。
そうした画像も生成できるようになると。
こうした感じでリアルで撮影した画像に対して、結構自然な感じで手を加えることができるようになっています。
もちろんAIで生成しましたっていうことを明示した上で、クライアントやユーザーに提示する必要があります。
こんな感じで、フォーイメージジェネレーション、かなり精度が高くなったので、
本当にアイデア次第でいろいろなことができると思います。
結構海外のユーザーはですね、サービスのロゴを生成したりしていました。
今までDARI3とかロゴを生成してって言っても、あまり良いロゴは生成しなかったと思うんですけど、
フォーイメージジェネレーションになると、結構プロンプト次第でいい感じのロゴを生成するようになっています。
一方でフォーイメージジェネレーションに対する、むしろ生成AIに対する議論が紛失したというのも印象的な出来事でした。
ちょっと何が起こったのかっていうのを時系列で説明しますね。
先週OpenAIがフォーイメージジェネレーションという画像生成を発表しました。
早速ユーザーが使っていったわけですけど、ある一人の海外ユーザーがジブリ風の画像をフォーイメージジェネレーションで生成したわけですね。
トトロとかもののけ姫とかで有名なスタジオジブリですね。
ジブリ風画像の生成
その生成結果っていうのがかなり精度が良くてですね、誰でも簡単にジブリ風の画像を生成できると。
それを見たユーザーがこぞって、じゃあ自分もっていうことでジブリ風の画像をいろいろ生成してですね、インターネット上にアップしたわけです。
それが海外でバズってちょっとミーム化したんですね。
ここでいうミーム化っていうのは、あるコンテンツがインターネット上で繰り返し使用されて、多くの人々によって共有されるような現象を指すんですけど、
今回はそのジブリ風の画像っていうのがインターネット上にものすごく溢れたと。
これに対してスタジオジブリはまだ声明というのは出していません、現時点では。
こうした一連の出来事もあって、フォーオイメージジェネレーション、ものすごく精度も高くて、いろいろなことができるアイディア広がるなーって思う一方で、
ちょっと違和感を感じたなというのが正直な感想です。
これ、日本人だからですかね。
日本の代表的なアニメであるジブリの画風がミーム化したことに対する違和感っていうのは、国によって温度感が違う気もしました。
もちろんアメリカとかヨーロッパでも今回の件で違和感を感じているっていう海外のユーザーもたくさんいました。
一応ですね、補足すると、こうした画風に対する著作権っていうのは成立しないんですよね。
著作権に関する問題
以前はダリスリー、結構ルールは厳しかったんですよね。
例えばそのジブリ風とか、特定のアニメキャラクター、あとは人物の名前を入れて画像生成しようとしても、弾かれたりしていたんですよ。
なんでかわからないんですけど、今回のそのフォーオイメージジェネレーションになってから、そこら辺のルールというかフィルターはかなり緩くなっている印象を受けました。
でこれあの、後日談があって、ちょうど収録している今日が4月1日なんですけど、無料ユーザーにも今日解放されたというニュースがありました。
でその無料ユーザーにも解放されたと同じタイミングでですね、海外ユーザーからこんな声も上がっています。
フォーオイメージジェネレーション、NERFされたと。でこのNERFっていうのは弱体化とかの意味ですね。
つまり先週できていたような画像生成ができなくなったという意見が出てきています。
で早速私あのジブリのプロンプトで試してみました。ジブリ風の画像を生成してと。
で昨日までは生成できていたんですよね。私あの昨日台本作ってたので、その時にジブリ風の画像で生成できるかどうかっていうのをチェックしていました。
ちょうど昨日なので3月31日ですね。でそこから1日経って今日の4月1日ではジブリ風の画像を生成してと入力してもコンテンツポリシーで生成できないですよというような反応に変わっています。
この1週間でいろいろありましたけど、あのオープンAIも対応してきたんだなと思いました。
おそらくかなりクレームが入ったんじゃないですかね。
私も生成AIを利用させてもらっている立場なのであれこれ言えないんですけど、今回の件はちょっといろいろ思うところがありました。
オープンAIのプロダクト大好きなんですよね。
チャットGPTもすごくお世話になってるし、あとはオープンAIのAPI、例えばウィスパーとかですね。
いろいろ使ったりして本当に素晴らしいプロダクトだと思ってます。
でもやっぱりこういったことがあると逆にもったいないなっていうふうに思ったりもします。
For Image Generation、ジブリ風とかそんな使い方しなくても素晴らしいプロダクトなんですよね。
特にこのエピソードでも紹介したように、画像のスタイルの一貫した維持とか、あとはアップロードした画像に対していろいろ処理ができると、そういったことの精度かなり高いんですよね。
なので今回のようなことが起きないように、フィルターのレベルっていうのを以前と同じぐらい、もしくはそれよりももっと高い水準に戻した方がいいと思うんですけどね。
やっぱりこういうことが起きると企業側としてはAIの利用に慎重にならざるを得ないですよね。
画像生成AIってどれだけいい画像が生成されるのかっていうのが一番重要なポイントだと思います。
ただ、画像の精度と同じぐらいに学習元の権利回りがしっかりしているかっていうのも最重要ポイントだと思います。
むしろリスクを考えると、画像の精度以上に、画像の品質以上に重要なことだと思います。
じゃあこうした時に権利関係がクリアで問題なく使える画像生成はあるのっていう話になるんですけど、答えはすでに出ているんですね。
それがアドビのFireflyです。アドビっていうのはデザインツールを開発している会社になります。
で、アドビが開発している画像生成がFireflyというわけです。
で、このFireflyは許可を得たものだけで学習をしているので、著作権回りの問題はクリアになっています。
アドビ自身も何か問題があればうちで責任取りますよっていうぐらい強気なので、
本当にその学習元の権利回りっていうのはしっかりクリアにしていると思います。
で、これ最近始めた取り組みではありません。比較的早い段階から取り組んでいたんですよね。
企業側としてはリスクのない画像生成AIを使いたいっていうのは至極真っ当な考え方だと思います。
アドビFireflyのリンクは概要欄に貼っておきますので、興味のある方はチェックしてみてください。
はい、それでは今日のポイントをまとめます。
アドビのFireflyの紹介
1つ目にオープンAIから新しい画像生成、フォーオイメージジェネレーションがリリースされました。
2つ目に精度が高いのはもちろん文字入れや画像の参照などに強みを発揮します。
そして最後3点目、一方でジブリ風画像をきっかけにリスクや倫理を指摘する声も多いです。
はい、今日はこのへんということで本日も聞いていただきありがとうございました。
ちょうどまさにこの収録を終える頃ぐらいに、オープンAI CEOのサム・アルトマンがちょっと興味深いポストをしたので紹介します。
ちょっと翻訳したものを読みますね。
今後数ヶ月以内に推論機能を備えた強力な新しいオープンウェイト言語モデルをリリースできることを嬉しく思っています。
GP2以来初のオープンウェイト言語モデルをリリースする予定です。
この内容も気になりますね。
もしかしたら数ヶ月先でこのポッドキャストでもとうとうオープンAIからオープンウェイトの言語モデルがリリースされましたねと話している可能性は高いですね。
非常に楽しみです。
このポストのURLも概要欄にリンクを貼っておきます。
そしてちょっと話が変わるんですけど、先日RKB毎日放送という福岡の放送局で収録を行ってきました。
古典ラジオの樋口さんという方、古典ラジオを知っている方多いと思うんですけど、古典ラジオの樋口さんとAIについて話してきました。
樋口さんと収録は初めてだったんですけど、トークがとにかくすごいですね。非常に楽しい時間を過ごさせてもらいました。
この放送というのはポッドキャストラボ福岡という番組から配信されています。
概要欄にリンクを貼っておきますので、興味のある方はこちらもぜひ聞いてみてください。
そして最後にもう一点、感想フォームから嬉しいお便りをいただきました。
えっとですね、この耳で学ぶAIのポッドキャストを1話から聞いてもらって、今4週ぐらい聞いてもらってるそうです。
いやかなり嬉しいですね。ありがとうございます。
AIを学ぶきっかけになったと嬉しいお便りをいただきました。
私も今回お便りをいただいたことですごくモチベーションが上がりました。ありがとうございます。
また先で暗号とともにお便りをお待ちしています。これからも引き続きよろしくお願いします。
番組ではこのように耳で学べるAIを毎週発信しています。
通勤中や家事の合間にAI情報をキャッチアップできます。ぜひフォローをお願いします。
そしておすすめの生成AIツールをまとめた資料も配布しています。興味のある方はこちらもぜひ概要欄にリンクを貼っておきます。
お相手は耳で学ぶAIの矢野てっぺいでした。また次の配信でお会いしましょう。
21:47

コメント