1. iPad Workers
  2. #157:画像生成が変わった!Ch..
2025-04-03 19:56

#157:画像生成が変わった!ChatGPT-4oのすごすぎる進化

spotify apple_podcasts

👋 こんにちは、はるなです。

今日のテーマは「ChatGPTの画像生成の大きな変化について」です。

https://ipadworkers.substack.com/p/iwpodcast-157

* 📅4月7日発売📘iPadアプリ図鑑2025(予約限定価格499円)

🎧 iPad Workers Podcastは毎週、木曜日配信予定のポッドキャスト番組です。リクエスト・感想などは #iPadWorkersのハッシュタグを付けて投稿してください。

━━━━━━━━━━━━━━━━━━━

🖼️ ChatGPTの画像生成は何が変わったのか?

ChatGPTの画像生成エンジンが、これまでと大きく変わりました。これまでは「DALL·E 3」という外部エンジンを使っていましたが、3月25日頃からOpenAI自社製の「ChatGPT-4o Image Generation」に切り替わりました。

従来の「DALL·E 3」と比べて、以下のような点で大きく進化しています。

ChatGPT-4o Image Generationの特徴

* テキストを含む画像生成:看板やロゴなど、文字が入った画像も作成OK* キャラクターの固定:同じキャラクターのバリエーションが出せる* 画像スタイルの変換:「〇〇風」と伝えるだけで簡単にスタイル変更できる* 透過画像の生成:透明風ではなく透過PNGが生成できる

一部テキストがおかしいところはありますが、4つの特徴を画像化してほしいと頼んだだけで、上記画像が生成できます。

これまでの仕組みでは、ChatGPTがDALL·E 3用のプロンプトに翻訳して指示を出していましたが、新しい仕組みではChatGPTがネイティブに画像生成できるようになりました。

より簡単にイメージをビジュアル化することができます。

無料プランの人にも開放されている機能ですが、話題になってみんなが使いまくるから、OpenAI側のGPU負荷が激しくなりすぎて、無料プランの人は1日に3枚までという制限がかかっています。有料プランの人は短時間に連続して生成すると、「時間をあけてね」というメッセージが出ますが、生成枚数に制限はありません。

新しい画像生成モデルは、最初にボヤけた全体像が表示され、上から順番に画像が表示されていきます。

🈶 日本語もだいたい表現できるように

最も大きな変化は文字の生成、特に日本語が描画できるようになった点です。

これまでのDALL·E 3を使った画像生成では、テキストの描画が全くダメでした。特に日本語は意味不明な文字のようなものしか生成できません。アルファベットですらスペルミスが多く、あまり信用できませんでした。

新バージョンでは、ほぼ正確な日本語を生成できるようになりました。一部の漢字が崩れていますが、ほぼ実用レベルに達しています。

セミナー概要を送っただけで、この画像が作られてしまうのです。すごくないですか?

上記画像から少し調整をかけて完成したものがこちらです。画像編集ソフトは一切使わず、ChatGPTの画像生成のみで出したものです。(👉Obsidianセミナー詳細はこちら

セミナー概要を送っただけではあるんですが、送る時のフォーマットにコツがあるので、その雛形は土日のプロセス紹介ニュースレターで送ります。興味のある方はぜひプロプランへ。お試し期間もついてます。

雛形なしの状態でセミナー概要を送ると、こんな感じの画像しか生成できません。決して悪くはないけど、ちょっと足りない感じがします。

⚖️ 著作権の問題も

ChatGPTの画像生成アップデート、全般的にかなりいい感じなんですが、問題点もあります。著作権に関わる問題です。「ジブリ風」といった指示をすると、まるで本物のジブリ作品のようなイラストが生成されてしまいます。

特定のブランドロゴなども、これは完全にアウトなのでは?というレベルで描画されてしまう場合があります。一応、テキスト上は「できません」と言っていますが、生成された画像にはほぼそれとわかる形で描画されています。

こうしたグレーゾーンについては、生成AI業界全体で長く議論されていますが、まだ明確なルールが確立されていないのが現状です。特に「〇〇風」という曖昧な指示が許容される場合、それがどこまで許されるのかという線引きがとても難しくなります。

たとえば「ピカソ風」「葛飾北斎風」といった、すでに著作権が消滅したアーティストのスタイルを模倣することは、基本的に問題視されません。ですが、「ジブリ風」「ディズニー風」「ピクサー風」といった現役で権利が生きているスタジオのスタイルを真似た場合、それが “創作的なオマージュ”とされるのか、“著作権侵害の疑いがある模倣”と見なされるのかは非常にグレー です。

AIにとってスタイルは、膨大なデータの中から抽出した「傾向の集合体」に過ぎません。しかし、人間の目から見ると、明らかに「あのキャラみたい」「あのアニメっぽい」と感じてしまうのも事実です。

AIが生成した画像を利用する場合、思わぬところでトラブルになる可能性があるため注意は必要です。クリエイターとして活動している身としては、この辺りの法整備や明確なガイドラインが必要だと感じています。ただ、個人で楽しむ分にはとても魅力的なものであることは間違いありません。

ChatGPTの新しい画像生成機能は、iPhoneやiPadのChatGPTアプリでも使用可能です。ChatGPT-4oモデルを選択した状態で「画像を作って」と言うと、新しい画像生成モデルで画像生成ができます。

ということで今日は「ChatGPTの画像生成モデルが新しくなってすごい使えるようになった」というお話でした。

👇4月7日発売『📘iPadアプリ図鑑2025』予約受付中。2024年版からめちゃくちゃボリュームアップしてます!



This is a public episode. If you'd like to discuss this with other subscribers or get access to bonus episodes, visit ipadworkers.substack.com/subscribe

サマリー

ChatGPT-4の画像生成機能が進化し、日本語の文字生成が可能になったことが解説されています。DARIからChatGPT4への移行により、より高速かつ効果的に画像生成が行われており、特に日本語のサポートが強化されています。ChatGPT-4の画像生成機能が大幅に進化し、特定のブランドやキャラクターに関連する描写も可能になります。これにより、アートの制作がより簡単に、そして多様なスタイルで行えるようになります。

00:02
スピーカー 2
iPadの言葉から始めます。iPad オリーナポテキャスト、iPad Workersポテキャスト。
画像生成モデルの進化
スピーカー 1
今日は、ChatGPTの画像生成がちょっと変わったので、その話をします。
なんか日本語に対応していろいろ進化したみたいなのは聞いた。
スピーカー 2
まず、画像生成に使ってた画像生成モデルっていうのを大きく変更があって、
それによって文字が生成できるようになったっていうのが正確な表現なんだけど。
スピーカー 1
もともとあれだっけ、DARIっていうエンジン?
スピーカー 2
DARI3っていう画像生成のエンジンをChatGPTの中に組み込んで、画像生成をすることができたっていうのが今まで。
ついこの間、たぶん3月25とか6ぐらいにそれが変更になって、
そのオープンAIってChatGPT作ってるところの自社製のChatGPT4をイメージジェネレーションっていう画像生成モデルに切り替わった。
スピーカー 1
じゃあ、今初めてわかったんやけど、DARIって、確かもともとChatGPTに指示を出すと、
ChatGPTがDARI用のプロンプトに翻訳して、DARIに指示を出してくれて、DARIが絵を描くっていう仕組みだったけど、そこがネイティブに統合されているっていうこと?
スピーカー 2
自分ところでも画像を生成できるようにしたって感じ。
4って、ChatGPTのモデルがいろんな3.5とかさ、いろんな種類のやつがあって、そのうちの4は一番評判がいいというか、一番ベーシックなやつなんだけど、
それを使ってプロンプトも書くし、それで画像も生成するっていうので、
ChatGPTの中で画像が作れるのには違いはないんだけど、その作り方というか、作ってるやつが変わったみたいな。
スピーカー 1
今のところ有料の人だけ?
スピーカー 2
今、自分の場合、プロとプラスっていう安い方の月3000円ちょっとのプラスの方なんだけど、もう使える。
ただ、なんか順次開放してるっぽくて。
スピーカー 1
じゃあ、そもそもまだ有料すら一部だったりするんか。
スピーカー 2
かもしれない。プロは確実にできて、プラスの人も多分できると思うんだけど、もしかしたらまだっていう人もいるかもしれない。
見分け方というか、一番簡単なのが、その画像の出力の仕方、画像の出方が今までのDARIを使った画像生成の場合って、
矢印みたいなくるくるくるって回る矢印みたいなのがぐるぐるぐるぐる回って、生成できた瞬間一気にパッて出てくるって感じだったんだけど、
今回新しくなったChat GPT-4の画像生成モデルだと、なんか最初にぼけた、ぼかしのかかった全体像みたいなのが出て、上から順番に綺麗になっていくみたいな。
スピーカー 1
かつての低速インターネットで画像が表示されるみたいなやつに近い。
スピーカー 2
上から順番にビーってくるっていうやつの生成に変わった。
確かこれも途中ぐらいからメジャーになってきた画像生成のシステムで、完全にできてからポコって出すんじゃなくて、
上から順番に生成していくみたいな技術っていうか、そっちの方が早くできるみたいな感じのやつがあって、最近の流行りのモデルはそんな感じ。
スピーカー 1
画像生成で学んだので言うと、そもそもの大きな意味での生成AIの画像生成のやり方っていうのが、もともとあった絵にノイズを乗っけていくと、今何の絵かわからなくなるっていうのの逆順の処理をしているっていうのを聞いたよ、そういえば。
それを上から順番に綺麗にしていくみたいなイメージなのかな、表示していくの。まあいいや。
日本語の文字生成の向上
スピーカー 2
コンテンツリストの理解というか、ユーザーがこういうのを作ってほしいっていうのを汲み取る力が、やっぱり今までよりもすっごい高くなってて、それの影響で文字の生成、今までダリ使った画像生成で。
スピーカー 1
文字全くダメやね。少なくとも日本語完全無理で。
スピーカー 2
日本語はもう完全に無理で、なんかよくわからんフォントっていうか、中華フォントと日本語が混ざった。
スピーカー 1
中国、外国人が真似した中国語みたいな。
スピーカー 2
みたいな感じの文字しか生成できなかったし、アルファベットで指定してもめっちゃ間違う。
スピーカー 1
結局ダリが多分そういうことできないし、さらに多分文脈理解が毎回ダリを呼び出してしまうから、やっぱそのネイティブじゃなかったことの不便さがあるんだよね。
スピーカー 2
で、それが今新しくなったバージョンだと、ほぼ日本語でも問題、もちろん変な時はあるよ。
変になってる、なんか濁音とか点々とか丸の1がさ、変なところについてるとか、漢字が一部崩れてるとかはあるんだけど、ほぼほぼほぼいけるぐらいの漢字で日本語も出してくれるように。
スピーカー 1
なんか作ったやつを見たらさ、いわゆる図解っていうか説明の画像みたいなやつ、もうチャットGPTで作れるねっていうレベルになっているね。
スピーカー 2
そう、なんか昨日とか一昨日とかいろいろ試してたんだけど、難しく書かなくっても結構いい感じに、そのだろう、図解みたいなのもちゃんとしてくれて、文字も入れてくれるから、何もノー編集でもなんか出せるぐらいのレベルにはなってる。
スピーカー 1
まあ、そのいわゆるブロガーな人たちがアイキャッチうんぬんとか図解うんぬんみたいな、そういうのを低コストで早く作るんだったら、もう結構やばいレベルにきているよね。
スピーカー 2
これはね、かなり上手に書いたら上手に出してくれるなっていうのは今までのこういう生成AIの使い方の基本一緒なんだけど、その上手に書くレベルが全然緩くなった。
スピーカー 1
ある程度曖昧な指示でもある程度いい感じになってくれて、いい感じに指示を出せばもっといい感じになる。
スピーカー 2
で、今回その画像生成で良くなった点が、さっき話したテキストの描画ができるようになった。しかも日本語でも大丈夫っていうところと、あとはキャラクターの固定というか、
1個前に作った画像をそのまま残して、次に例えば表情だけ変えてとか、スタイル、タッチをイラスト系から3Dモデル系に変更してみたいな風に指示をすると、
本当に直前に作ってた絵をそのまま活かして、そのままの状態で見た目だけを変えてくれるっていうことができる。
スピーカー 1
昨日ツイッターの自分が見ているタイムラインがそういうので溢れていて、もうやっぱ結構誰しもが挑戦したくなるぐらいすごいすごいやつなんだよね。
スピーカー 2
多分タイムラインでは漫画が描けるようになった。
スピーカー 1
描いてあった。やべえなって感じがした。
スピーカー 2
で、テキストとコマ割とキャラクターの固定ができることによって、4コマ、漫画の4コマ分全部同じキャラで描き続けられるし、セリフも入れられる。
スピーカー 1
プロジェクト作ったらさ、ずっと漫画の設定をプロジェクトにしておいて、続きの話をなんとなく書いてあげると、なんとなく漫画にしてくれるとか、だいぶきているよね。もうそういうレベルに。
スピーカー 2
できるような気がする。
あとね、手書きで書いたラフみたいなのを画像としてアップロードすると、それを聖書してくれるっていう。
スピーカー 1
原画描いたら、原画っていうか、ネーム書いたら、キャラ固定しといてネーム書いたら、漫画になるっていうことがもう十分にある。
スピーカー 2
みたいな感じだったね。
それはまだ自分では試してないんだけど、書いてる人はコマ割りみたいな、ネームって言われる、漫画の場合だとネームって言われるものを書いて、で、GPTにアップロードして、それを漫画風に、みたいな感じにして書いてもらったら、ほぼその見た目の漫画。
スピーカー 1
俺も漫画書けるね。ついにコマ割りって、画力じゃなくて、その大きな意味での漫画力で漫画が書けるようになる。
スピーカー 2
そう、多分今まで書けなかった人が、画像生成ツールを使えば、絵が書けなかった人でも絵が書けるよって言ってたのが、さらに広がった感じ?
スピーカー 1
原作者の人たちが、書く人がなくても漫画になるに近いイメージ?
もちろんまだ勝てないけど、個人が趣味で楽しむ分には、それで十分で、そこからさらなる才能がたくさん見つかるとかは、結構あり得るよね。
著作権と社会問題
スピーカー 2
あとね、今の今話題になっているのは、著作権の話で、
スピーカー 1
画風がパクれるとか。
スピーカー 2
えっとね、今ジブリ風に言ってしたら、もうめちゃくちゃジブリのアニメっぽいイラストを書いてしまうの。
そのチャットGPTの画像生成。
で、どう考えてもめっちゃ学習してるやろう、みたいな感じで。
スピーカー 1
ジブリって何か公開してくれたんじゃなかったっけ?あれ違ったっけ?
全部やったっけ?使ってよかった。一部の画像を使っていいとか。
スピーカー 2
ちょっとそこをちゃんと調べてないんだけど、
もうジブリ風にってしたら、完全にあの世界のやつが欠けてしまっていて、
で、そのさっきの話で、画像をアップロードする。
自分の写真をアップロードするでしょ?実写の写真。
で、これをジブリ風にアイコン化してくださいってしたら、
ジブリのタッチに変わった自分の特徴、見た目を反映したやつを書いてくれてしまっていて、
で、その辺ちょっと著作権的な問題でどうなのっていうのが今の問題。
スピーカー 1
大いなる社会問題だね。
何をもってしてジブリとはジブリの作品なのか、どこに著作性が認められるのか。
スピーカー 2
でもやっぱり見たらわかるっていうか、ジブリっぽいみたいなのってあるやん。
スピーカー 1
例えばないけどさ、それ問題提起なんだけどさ、
ゲームとかにしてもさ、特定のゲームのフォーマットをみんな真似していたりしてさ、
だいたい新しいゲームって今までの最初期はやっぱり印象としてはパクリアンなんだよね。
で、音楽にしてもやっぱりだいたい前の人のやつをちょっとだけ加工してらしくかっこよくなっていて、
その音楽で言うとメロディーとかリフとかそういう特殊なものにだけ著作権が認められているというのが
現行のだいたい世界全般の法律的なものだったりするけどさ、
絵の場合、逆にそこってまだ整備がきちんと整っていないよね。
スピーカー 2
うん、だからまあ難しい問題だし、今後よりどう線引きしていくのか、
画像生成の進化
スピーカー 2
どれぐらい公開していくとか、どこまでオッケーするとか、
どっち側の目線もあるからそこはまあ難しい。
スピーカー 1
簡単に言えることではもちろんないよね。
スピーカー 2
でもね、やっぱり正直ジブリ風だけじゃなくて、自分が試した中では
特定のブランドを指定して服装とかを指定したよね。
例えば、ナイキのスポーツシューズにしてくださいみたいな指示を出したら、
一応ね、答えるのは返答的には特定のブランド、著作権のため描画ができません。
なのでその似たようなもので再現しますね。
まあ表現して描きますねっていうメッセージみたいなのが最初に出て
描画されるんだけど、されたもの、結果を見るとまんまのナイキのブランドマーク、チェックマーク。
スピーカー 1
あのロゴが入ったらダメって多分なるよね、普通は。
あのロゴをちょっと形変えてぽいだったらギリギリかなという言い方もできるし、
漫画で意図的にそういうのってまんま描いてたりする人もいなかないよね。
スピーカー 2
でもその描いてる人は多分許可とっていると思う。洋服とかブランドとか、
そのそっち系であの特定できるもの、この商品だっていうのが特定できる場合は、
なんかねあのファッション雑誌とかのスタイリストみたいな感じと同じで、
漫画でもスタイリストが入って、
スピーカー 1
現代的な漫画とかだと。
スピーカー 2
最近のやつだと、あれ1億円じゃなくて、
トリリオンゲーム。
あれの国竜キリカの。
スピーカー 1
あそこはわざとコラボしてるでしょ、意図的に。
スピーカー 2
あの人にもうスタイリストさんがついてて。
着せてるんだよね、有名なやつを。
スピーカー 1
あれ逆にだって金取れると思うからさ。
スピーカー 2
とかっていう、そういうのがあったりするから、
その辺ちょっとちゃんと細かく見れば色々ルールはあると思う。
ただ今回のGPTの場合は、
ルールもクソタレもまだない状態。
スピーカー 1
まあね、基本的に多分時代の流れでさ、
むしろブランド側は基本還元する流れになっていくんじゃないかと予想はするんだけれども。
スピーカー 2
以前の画像生成の場合って、
例えばマリオ、任天堂のマリオのキャラクター風にとかって言ったら、
それはできませんって言われて、
全然できなかったのね。
でも今のChatGPTの画像生成だと、
スピーカー 1
2025年3月現在。
スピーカー 2
3月26とか7日現在だと、
任天堂スイッチを持たせてくださいって言ったら、
任天堂スイッチはちょっとその著作権の関係でできませんって言われたんやけど、
もうね、ロゴから何からも任天堂スイッチが描けた。
スピーカー 1
例えば任天堂スイッチを持っている写真を撮って、
ネットにアップしたらダメかって言ったらそうではないみたいな言い方もやっぱりできるよね。
スピーカー 2
そう、なんかまあすごいグレーなところだから、
ちょっと前からっていうか、生成AI業界ではずっと言われてる問題。
スピーカー 1
写真だと許されて、画像だとダメな理由は何なのかというと、
あえてそういうふうに言うけど難しいところではあるよね。
スピーカー 2
そう、だからどれが正解とか、今のところそういうこともあるので、
気をつけるべき点はいっぱいあるけれども。
スピーカー 1
作る側の人が不要意にそれをアップしてしまうと、
後から汚点になる可能性はあるのかな。
スピーカー 2
ただ画像生成の仕組みが大きく変わって、
制作の容易さ
スピーカー 2
チャットGPTの、これアプリでもできるので、
iPhoneとかiPadのチャットGPTアプリの中でも、
画像を作ってって言ったらもう勝手にそっちになるっていうか、
何も指定をしなければね、チャットGPTだとか。
何かの絵を描いてとか画像を作ってって言えばいいってことなの?
言えば勝手にチャットGPT4のイメージジェネレーターみたいなエンジンで
描いていく。このキャラクターを固定できるっていうのは、
今まですごい悩んでて、ずっとその一貫したキャラを
使い回したいなと思ってた時に、まあまあ難しかったんだよね。
他の生成系の画像に特化したやつとかだと、
結構固定できるやつあったんだけど、
チャットGPTだけで、ダリの中だけでやろうと思ったら結構難しくって。
で、いろいろ試行錯誤をしてましたが、
そういうのもあんまりしなくても良くなったっていう。
スピーカー 1
はるながその家族3人分のキャラクターみたいなのを生成して固定させとくと、
普段のそのアイキャッチでゴリゴさんとはるなさんと息子を登場させるのが
割と簡単に同じキャラとして登場させられる。
スピーカー 2
できるかなーって感じ。
まあたださ、ここまで試行錯誤中だけど、
とりあえず遊びで子供のアバターみたいなのを作ってたんだけど、
スピーカー 1
相当レベル高いよね、それ見ると。
スピーカー 2
うん。特徴をまず伝えて、
で、その後にこういうスタイルでじゃあ描いていって、
持ってるものを変えたりとか、靴を変えたりとかしてやったら、
まあまあいい感じのやつができるようになった。
Appleの右文字が一瞬で時代遅れになってしまったなって印象を受けて。
スピーカー 1
ジェン文字か。
あの辺がなんか10年前に見えてくる。
スピーカー 2
もうそれ以上にね、カスタマイズの幅がめちゃくちゃ広いので、
いろんなものができると思います。
ということで今日はチャットJPTの画像生成のエンジンが変わったことによって、
ものすごく良くなったっていうか、
使いやすくなったんじゃないかなというお話でした。
番組への感想やリクエストなどは、
シャープiPadワーカーズのハッシュタグをつけて投稿してください。
4月7日にiPadアプリ図鑑が、
2?2じゃない?
2025かな。
iPadアプリ図鑑2025も発売します。
予約期間だけめっちゃ安く買えるように買い切りで、
スピーカー 1
よくあるやり方ですね。
スピーカー 2
できるようになっているので、
1冊持ってても損はない本になっているので、
よかったらAmazonの方から予約お願いします。
19:56

コメント

スクロール