00:00
アシカルゲスト
画像生成AIについて去年の夏頃から何度も取り上げてきました
世間的には最近ちょっと一段落している感があると思いますが
その界隈では盛り上がっているようです
どんどん進化していってますし、エコシステム的なものができつつあることに気づきました
世界中の人たちの集合地で、みんなで知恵を出し合って前進していってるような感じで
その家中にいる人たちは楽しいんだろうなと思います
で、まず最近感じているのは、画像生成AIを使いこなしている人と、そうじゃない普通の人との差がかなり大きくなっていることです
私も最初の頃は頑張ってこういう単語を入れたら、生成される画像にこういう影響が出るとかいろいろ学んだんですが
今先を行っている人たちのレベルは、もう全然追いつけないような領域なんだろうなと感じています
AIの力で誰もが思い通りにイラストや写真を生成できる時代が来るというのはまだ先の話で
今は限られた訓練を積んだ、その道のプロ的な人じゃないと思い通りに画像を生成できない、そういう段階かなと思います
カメラの歴史に例えるなら、まだデジカメ以前、オートフォーカス以前、プロカメラマンとか
かなり勉強したアマチュアカメラマンじゃないと使いこなせないような、そういう時代に相当するんじゃないでしょうか
ただこういう画像を生成したいとお願いするテキスト、プロンプトと言いますし、日本では呪文とも言われていますが
このプロンプトにもこういう要素は排除するとか、他にもパラメータ的なものもあったりして、いろんな要素があるようです
なのでAIで画像生成をするプロ的な人が現れるんじゃないんでしょうかね
企業などから頼まれて、AIで画像を生成するプロフェッショナルということですね
またAI画像生成の技術的な部分をサポートするプロとか、コンサルティング的なこと、情報発信などを仕事としてやる人も出てくるでしょうね
03:00
画像生成AIに特定の画風でイラストを描かせるとか、何かしらに特化した画像を生成させるように学習させることができるんですね
特定の傾向に特化した画像をたくさん学習させるということだと思います
そしてそうやって作った特定の用途に特化したモデルデータというのを世界中の人が作っていて、そういったデータの投稿サイトがあって、誰でもそのデータをダウンロードして使うことができるんですね
シビットAIというサイトが有名なようです。何かしらの特定の絵柄、用途に特化した画像をStable Diffusionという画像生成AIで生成できるようにする追加ファイル的なものを世界中のみんなが投稿していて、誰もがダウンロードして利用できるんですね
このシビットAIですが、ITメディアの記事で「インモラルな無規制地帯」と書かれていました
確かにはっきり言って、何でもありな、いろんな著作物であったり、実在する人物に似せたものを作るためのデータが山ほど登録してあります
私が詳しくないので見てもあんまりわからないんですが、実在する人気のアニメのキャラクターに似せたイラストを生成させるためのデータがたくさん登録されているようです
そしてそのデータは誰かが勝手にそのアニメのキャラクターの画像をたくさんAIに読み込ませて学習させたということなんですね
なおそのITメディアの記事では、原稿法では画像をAIの学習データに用いるとき、著作権者の許諾を得る必要はない
ただし、特定のキャラクターなどを真似た画像を出力しようとするのは違反になる可能性があると書いていました
補足というか当たり前のことなんですが、AIが書こうが人間が書こうが出来上がった結果としてのイラストであったり画像であったりが既存のキャラクター、著作物と酷似している、明らかに真似しているだろうという場合はもう著作権違反ですよね
ただその学習させたデータを配っている人が、著作権違反かとかそういう議論は出てくるでしょうね
06:00
このCivitAIとかに投稿して公開されているもの以外に、個人でそういう特定のイラストなり写真なりを学習させて楽しんでいる人もいるということですよね
有名人、芸能人の写真を学習させて、その人っぽい人物を生成させようとしているものもありました
日本人のものもいくつかあって、生成されている画像を見てみたんですが、残念ながらというかむしろ良かったというか、あんまり本人と似てませんでした
多分その人の写真をたくさん読み込ませたんだと思うんですが、結果あんまり似てない画像が生成されるのが興味深いなと思いました
もちろんそういうインモラルなものではなく、面白いなというものもあって
Civit AIではなくてDiffusers Models Galleryという別なサイトで見つけたんですが、切り絵風とか、飛び出す絵本風、モザイクアート、アイソメトリックな感じの3Dの画像
そういったものに特化しているモデルのデータがあって、それらはなかなか面白いなと思いました
ただそれらに関しても学習させた元の画像のデータがその著作権者から許可を取っているものなのかとか、自分が撮った写真なのかとか、その辺はわからないですからね
ちょっとグレーな感じがつきまとうのは否めないですね
まあITメディアの記事にも書いてましたが、技術が出たての頃は大抵そんなもんだと
YouTubeだって最初の頃はテレビ番組の威報をアップされた動画ばっかりでしたからね
技術が進化していくことに関しては止められないと思うので、うまく落としどころを見つけてYouTubeみたいにクリーンな形で成長していくことができるのかなと期待したいですが、それにはかなり時間がかかりそうですね
ただ最近のそういう動きを見て思うのは、画像生成AIのStable Diffusionがオープンソースとしてみんなが自由に無料で使える、改変していけるという戦略をとったのが大成功だったなということです
どんどん今世界中の人たちによってブラッシュアップされていってるということですよね
しかも金銭的なインセンティブとは関係なく自分の好きなアニメのキャラクターをもっと高精度に生成させたいとか
09:07
自分の性癖を満たすような画像を生成させたいと、そういう思いのある意味、暇人の人、そういうのに割く時間のある人たちのおかげでどんどん進化していってるんだなと
そういう熱気を、熱狂を感じます
今回話してきたことはテキストから画像を生成するテキストトゥイメージの話でしたが、画像をもとに画像を生成するイメージトゥイメージというのもあります
そして最近ポーズを指定して、そのポーズの人物をテキストトゥイメージで生成するためのコントロールネットという新技術も登場しています
3Dのツールで人物のポーズを作って、その画像をもとにコントロールネットという技術を使って、ステーブルディフュージョンでそのポーズの人物を生成するとか
そういう技術が出たところで世界中の人がいろんな研究をして、座っているポーズを指定した人物と背景となる椅子を含んだ画像等を別々で生成して合成させるとか
そういったテクニックを考えて実際にやってみている人がいたり、そういうことをやっている人がいるよと情報を発信している人がいたりで、画像生成AI界隈は今日も賑やかですということです
今回は以上です。足利康二でした