昨日は本当にGUI立ち上がったよっていうところまではできたので、その続きをやっていきたいんですが。
ではでは。コミファイUI入れましたよと。基本的にはバッジファイルでそのままできるよっていうような話でしたね。
ダブルクリックしてしばらく立つと立ち上がる。ここら辺は普通にPythonのGradio系のUIのGradioじゃないのかな。
標準というところで。昨日そういや途中までやってたやつはどんな感じだったっけなってところで。
こちらのコミファイUIのインストールについてのページでして。インストールは終わっているんで、実際にちょっとやってみましょうかね。
かかりますね。やっぱり。とりあえず立ち上がるとこんな感じでローカルに8188ポートでなんか出てくるよと。
非常に簡単でして。前回やったとおりですね。モデル引っ張ってきてこのやつを作ってと。
これはネガティブのプロンプトですね。これは引っ掛けてねっていうような感じかなのイメージで。
あとは作る画像についてのメタ情報。ここら辺でデカくすればデカい綺麗な画像はできるんですけども、
その分GPUのVRAM食いつぶすんで、そこら辺はあれですね。あとは同時に作る画像枚数ですね。
そちらのほうも変えられますが、これはもう同様にVRAMによって変わるんでですね。
そこはちょっと吉谷って感じですね。基本的には横上ちょっと見てないですが。
これで一通り設定終わったらあとは普通にキューブロンプトで処理が流れます。
処理を行っているやつがですね、ここら辺で色付くんですが。
できてるかな。昨日やってなんか普通にできたっぽいんで。
これ今適当に、昨日なんか私がプロンプト変えたやつなんですけれどもですね。
アニメ系が得意なモデルなんかなと思ったんで、アニメの男の人。
一応なんかだいたい若いキレイな人が多いんで、逆になんかお年寄りはどうかなって感じで、
エイジドゥーみたいな感じで入れましたよって感じですね。
今ちょっと初回だったんで、このロードチェックポイントかかってましたが、
ここでクルッと行って、Kサンプルでモデルからできて。
Kサンプラーが何やってるのかまだいまいちわかってないですよね。
これで一応アニメの男の人で疲れた感じで年取ってる人みたいな感じでですね。
そんなのが出てくるよという感じですね。
ここを例えばですね、ウーマンにすると同じような感じで。
ちなみに先ほどは今結構時間かかりましたけれどもですね。
ここロード終わってるんで、今2回目はだいぶ早めに行きますよって感じですね。
ここじゃあこのアニメ外すとどんな感じになるのっていう風になると、
疲れた年老いた女性みたいな感じですね。
それっぽいのが出てくるよねという感じですよね。
みたいな感じのがですね、いけるよって感じですね。
こんな感じで普通の画像生成AIの開発が簡単にできるよって感じですね。
とりあえず基本の部分はこんなもんかなと思います。
じゃあちょっとこちらのページをベースにズキズキいきますと。
このデフォルトのやつが何やってんのってところの話ですね。
最初のところで先ほどのモデルですね。
こちらのモデルは前回ダウンロードしてきたコミファイのモデルのチェックポイントみたいな感じかな。
そうですね、このチェックポイントのところに入れたってやつですね。
こちらのほうもやってきますよと。
これでモデル読んだらプロンプトでどういう風なものを作るか。
固定的否定的ってやって。
計算プラの説明がちょっと書いてないんですが。
なんですかね。計算プラなんだろうな。
コミファイのほうの話か。コミファイのほうの話で計算プラについてというところで。
クリップでテキストから。
クリップって基本的にはディフュージョンモデルのテキストとその画像のひも付けみたいなイメージになります。
入力されたテキストから対応する画像を作りますよと。
計算プラ。そうですね。
拡散モデルって何かというと最終的には綺麗な画像を作りたいんですよというところがありますけれども。
じゃあそれを作るにはどういう風にすればいいかというと。
今すんごいざっくり言いますけれどもですね。
一回その綺麗な画像からノイズに至るまでの道筋を全部覚えさせますよと。
それを逆にしていけば完全なノイズから綺麗な画像が作れますよ。
これが基本的に拡散モデルだいぶざっくりですけれどもですね。
そういうようなイメージになります。
いわゆるノイズを削除するというようなイメージになるんで。
ここのまさにノイズを除去していくよというところがこの計算プラというディフュージョンモデル。
拡散モデルのやつなのかなというところですね。
ここでひたすら最初は本当にランダムのノイズからですね。
その綺麗な画像に至るまでぐるぐる回すよというところが書かれているということかと思います。
ここで綺麗な画像を作っているよというような感じで見ていただければいいかなと思います。
この場合のデコーダーは何を取るのかという話なんですが。
これバリアブルオートエンコーダーの略で。
いわゆるオートエンコーダーって何かというとそのものの特徴を表すようなやつでして。
要はAIで作らせたいデータがありますよというふうになってきたときに。
これバリアブルそうですね。バリエーショナルオートエンコーダーか。
一般的なオートエンコーダーはこれですよというところですね。
これ表現したいよってなったときに。
いわゆるはこのCNNのニューラルネットワークをかましてあげて。
一旦こちらこのZの状態ですね。
ここでですねギュギュギュッとですね。
いわゆる情報量が少ない状態にします。
情報量少ないってどういうことかというと。
元の入力画像は縦掛け横掛ける画素のビット数の分だけ情報量を持っているんですけれども。
それよりももっともっと少ないですね。
情報量のですねZっていうのを表現します。
その上でそこからさらにこのデコーダーっていうのを使ってもっとこの入力画像を再現するっていうところですね。
そういうようなニューラルネットワークを作りますよと。
だからまず最初はもう本当に入力なんか入れてもノイズみたいなのが出てくるんですけれども。
それがですねちゃんとこの入力と同じようなふうになるようにですね。
誤差転搬でですね逆誤差転搬でですね。
それがですねちゃんとですねできるようにですねしていくよと。
これがですね上手くできると何が嬉しいのかというとですね。
結局入力入れてギュギュギュッとやってそれで戻すということができますから。
ある意味情報圧縮ができてるっていうようなイメージになるわけなんですね。
なのでこのある意味この入力のですね画像のですねエッセンスをですね抽出してよっていうようなイメージになります。
これが一般的なこのオートエンコーダーですよってとこですね。
じゃあこの場合は何なのかというところではありますが。
私もなんかふわっとしててですね。
さっきのギュギュギュってやったその普通のエンコーダーってここって本当にブラックボックスになりますよね。
いわゆる本当にとりあえずなんか情報をうまく押し込めてるけれどもですね。
それをですねその中身が何なのかわからないよと。
じゃあ一方でですねこちらですね。
バリエーショナルオートエンコーダーってやつはですね。
ある意味ですねこのこいつをですねやるんですけども。
ここがですねある意味その空間みたいな感じになっててですね。
この位置を変えるとですねそこらへんのですねこのやつがかかってくるよっていうようなざっくりとそういうイメージになります。
ある意味その空間空間上にですねそのなんか情報がですねマッピングされるみたいなぐらいのイメージに思っていただけるといいかと思います。
なのでこのですね空間上のですね座標をずらしてあげるとですねこんな感じでですね。
この作られる画像が違ってくるようなぐらいのイメージかな。
こんな感じですね。
この空間上にこんな感じでですね出てくるよっていうような感じですね。
こんな感じでですねいわゆるチューニング可能みたいな感じになってくるわけですよね。
この作られる画像が。
これできると何が嬉しいのやって話なんですが先ほどの画像なんか作るってなった時に。
ここらへんのですねパラメここらへんのですね空間をですね調整してあげると。
その調整するってところが先ほどのクリップっていうやつでそのテキストとその画像を紐付けますけども結局このテキストがここらへんの位置に紐付いてるよみたいなところのですね。