動画生成AIの現状
AIを中心に話すAIでとなっておりますので、最近ですね、動画生成AIとかのところですね、いろいろ遊んだりいじったりしてるんですが、
もうなんかリアルと大差ないっていうところの件まで来てしまってるなって気がするんで、改めて今やばくねっていう動画生成の現状と、
ここから逆に何を今後やっていけばいいのかって部分についてを、いろいろお話しできればいいかなって思ってますんで、よろしくお願いします。
あぶね、こっちのあれだよ。ミュートになってよかった。あぶね。
ということでね、今日はもろもろ深掘って、あれをいろいろ喋れると思います。
今ここはミュートでいいのか。あれか。オープニングが流れてるときはミュートなのか。そろそろ思い出した。
おはようございます。
じゃあ今日はすぐに大阪の方に移動しなきゃいけないので、4日間くらい遠征するんですけど、移動しないといけないんで、
短めというかあんまり雑談はなしで終わりにしますんで、そこはよろしくお願いいたします。
よし、頑張っていきましょう。じゃあそろそろ始まるんで、録音開始してやっていきますね。
OKです。じゃあ本日も改めてよろしくお願いします。じゃあ録音開始してスタートです。
どうもSotaです。このチャンネルではフォロワー数1万人以上をたくさん配置するステップという講座を運営したり、
フォロワー数1万、5万、10万、そして20万人を超えるようなインフルエンサーのマネタイズのサポートを行うエスロードを運営したり、
メンズ美容サロンのフランチャイズオーナーとして、僕にしかできないような一時情報のみを厳選しアウトプット式ラジオとなっております。
皆様が知って本当に良かったって思う情報のみを厳選してお届けしてまいりますので、よければフォローのほどよろしくお願いいたします。
有料スクールを超える学習教材、Sotaの伊勢大学、今だけ無料配布中。詳細は概要欄をチェックしてください。
はいということで今回はですね、もはや動画生成AIのクオリティがリアルと大差ない件というところについてお話をしていきます。
今の動画生成AIの市場って結構やばいというか、めちゃめちゃすごい状態になってるんですね。
そこのすごさというところを結構皆さんに知ってほしいなと思っていて、特にジミニとか含めての生成AIの力、クオリティの高さというのがもう普通じゃなくなってきてるんですね。
なのでそこについて今日は改めて今の動画生成AIってどんな感じかというところと、こんな可能性があるよねという部分とかとうとうちょっと深掘りしてお話しできればと思いますのでよろしくお願いします。
ジミニの圧倒的な力
ということで早速本題に入っていくんですが、今ですね僕自身は動画生成AIっていうところでは正直言ってジミニのベオ3と呼ばれるやつですね。
あいつがもう圧倒的だと僕はずっと思っていますと。
ずっと思ってるというか基本的に僕はなんかジミニで基本的に良くねって思ってる派なんですね。
僕の視聴者さんとか含めてリスナーとか聞いてくれてる人ってそんなAIで全てを自動化するプログラマーになりたいわけではないし、プロンプトエンジニアリングになりたいわけではないと思うんですよね。
そうなってくると別に最低限度というか、たし並みをちょっと超えた中級者ぐらいまでを目指せばいいと思ってるんですよ。
ってなった時に無理にいろんなものクロードとかいろんなものを知る人があるかと言われたらぶっちゃけなくねって思ってるんですね。
それよりもナチュラルにやるべきことというか、本当に一つのものをいろいろ使いこなせるようになっていくっていうのが僕は大事だと思ってるんですよ。
ソーターさんが講座でシェアしてくれた生成動画すごかったです。でしょ?あれやばいじゃないですか。
僕はそういう目で言うとジミニっていうもののベオ3さえ使っていれば基本的に動画生成AIは問題ないんじゃないかなと思います。
それこそTikTokで大流行りしているAIユーチューバーみたいなの。
AIユーチューバー。いわゆるおばあちゃんがマントルに突っ込んでみたとか、あとはブレイクスルー佐々木とかですね。
これブレイクスルー佐々木ってわかってる人はTikTok大好きな人なんですけど。
ああいうものレベルまでになってくると話が変わってくるんですけど。
自分のリール動画とかでちょっと素材が足りないなとか、自分の例えば写真。
それこそよく生徒でありがちなのが写真をリール動画に使う人ってめっちゃいるじゃないですか。
写真をリールに使って挟み込んでる人っていると思うんですけど。
あれを動画にすることは可能ですね。
あとは多分、アスペクト比っていう何対何みたいな16対9とか9対16のずれも、
VEO3使えば微調整は余裕でできると思います。
という時代になってきたので、写真を動画にするっていうこととか、
動画をさらにハイクオリティな動画にするとか、イメージの通りに動かしていくっていうことは、
もうほぼほぼ完成形に近いような時代になってきたなっていう感じがします。
正直さっきの夏美さんがおっしゃってくれてた通り、
僕結構自分でAIとか日々いろいろいじって遊んでるんですけど、
そこの気づきとかはガンガン講座内にシェアしていってるんですね。
て中で、やっぱ最近動画生成AIとかは前よりもやべえなって思いますね正直。
今僕はジミニ単体じゃなくて、一回チャットGPTで画像のクオリティを上げてから、
ジミニの動画生成AIに突っ込んで、動画を最高クオリティで自分の意図した通りに動かすってものにハマってるんですけど、
それやるともはや人間そのものというか、ほぼ完璧に動いてくれますねって感じがする。
ジミニ単体とかだったら別に人を動かすことだってできます。
人を物理的に動かすことだってできる。
そんなようなレベルの時代になっているんですよ正直。
だから言い訳してらんないというか、ぶっちゃけ最強クラスで何でもできちゃうよねってのが、今の動画生成AIの市場感なのかなって思います。
動画生成および画像生成AIっていうところは、僕は結構昔から本当に知っていて、
2023とかからですね、多分2年前ぐらいから、いわゆるミッドジャーニーって呼ばれるね、
無理で頑張ってプロンプト作って、いかに美女を作るかみたいなのが昔めちゃくちゃ流行ってた頃。
今後の可能性
めちゃくちゃというか、アーリーアダプター層と呼ばれる超速い層がやっていた頃からこの画像生成ってところとか見てきましたけど、
今ジミニなんてプロンプトで適当に20代の女性、かわいい人ポンって出てきちゃうわけだし、みたいな時代になってるわけですよね。
だからそうやって20代女性でかわいい人作ってポンって出てきた写真を、そのまんまジミニに突っ込んで動かすみたいな。
そう、ということが多分リアルにできるんですよね。
てか今やってみるか。
ということで、ライブ配信見てる人たちは今から画面共有するんで、
それのシーンをちょっと見てみてください。
今できるんですよねって言ったんですけど、多分できちゃうのでやってみます。
もう本当素材はないが本当にもう言い訳の時代ですよ。
何もみんな言えないですね。
こんな感じで日本人女性モデルの画像生成を今ここで行っちゃいますと。
ここで今、僕はもうプロンプトで、そういうサムネ用の写真を生成するプロンプトをジムっていうやつですね。
ジミニにジムって機能があって、このジムには事前にプロンプトを入れておけるんですよ。
そうするとこんな感じで生成できちゃうので、
これをダウンロードですね。
なのでジムの機能を使うとポチって押すだけで新しい画像生成ができるっていう状態に僕は組んでるんで、
これが実現されてるんですけど、
皆さんもこのジムって機能は一回あれで説明した過去のAI週間で説明もしてるので、
ぜひお試しください。
今の女性をモデル撮影時のジャケ写のようなイメージで撮影している雰囲気の動画にして。
今このBeo3を使えばジミニの動画っていうボタンを押していただくとこんな感じで動画生成ができるんですけど、
ぶっちゃけですね。
これ使うとジミニだと容量死ぬほど食うんで、無料版の人はこれまともに作れないと思うんですね。
月3000円の課金だと多分4,5個もっとか5,6個とか作っちゃうとこれで1日の上限が来ちゃうので、
月3万のプラン入ると死ぬほど使えるんですけど、
僕も月3000円のプランなんでそんな大量には作れないっていうのがぶっちゃけ正直なところですね。
こんな感じで別に素材なんてゼロから想像できる、ゼロから作り出すことができる時代になっちゃってるわけですね。
つまり画像生成ってところを通して自分のイメージした画像をできるだけリアリティー高く作っていただきますと、
それをもとにこのBeo3とか使って動画生成AIで動画にしていただくと、
この2ステップさえ踏んでしまえば基本的にはほぼほぼ動画っていうものは自分の欲しい素材は手に入りますし、
これの最初から写真さえあれば完璧ですよね。
ということでさっそく出来上がりましたね。見てみましょうか。
驚異的ですね。
Beo3の人は今見えてないと思うんですけど、ライブ配信を見てる方は今これ映像が多分お見えになってると思うんですが、
これあれですよ。今のところこの映像を作るのにあたってやった元素材はゼロ。
ゼロの状態でここまではできます。ぶっちゃけ。
動画生成AIの進化
すごい時代になっちゃいましたね。
ということでこんな感じで全然動画生成みたいなところを、
画像生成から動画生成っていうところを完全にゼロベース、
つまり何もない状態から画像を作り出してそこからさらに動画で動かすってことができる時代になってしまったわけですね、今って。
ってなってきたらもはや自分が映像を撮る必要性ってどこまであるのかっていうレベルになってきているんですが、
僕はやっぱり画像生成するよりもリアリティの写真が大事だと思っています。
リール動画で使うとなると流石に今のあれがAIだってのはわかっちゃうじゃないですか。
僕はリアリティの高い写真とかをちゃんと自分で撮っていただいて、
撮っていただいたリアリティの高い写真をペオ3で動かしてあげる。
その動かし方もより自分の意図に沿ったリアリティのあるプロンプトを作っていく。
どういう状態でどういうふうに動いていくような動画にしたいのかってことをちゃんと聞いていただいて、
自分の理想的な動画を生成するということですね。
リアリティのある写真から映像を加えたり動きを加えるとほぼリアリティのままでいけるんで、
あれは完璧かなって思いますね。
そうしていただければ基本的にもうこの動画素材がありませんとか、
この動画が足りないんですよね。
ここをもっとこうしたいけどそこがちょっと不足してるんですよねみたいな動画素材の不足や、
思ったイメージの動画がないなんてことはもう一生言わなくて済むようになる時代が、
僕はリアルに目の前に来ているなっていう感じはします。
AIと人間のクリエイティビティ
これは結局やるかやらないかっていうのと、
あとはAIをどこまで信じるか問題だと思うんですよね。
もうここまで来ると。
ここまでのクオリティを出せるけど、
AIの動画よりも私が撮った動画の方がリアルだって言えるんだったら構わないんですけど、
僕はぶっちゃけ多分自分でリール動画1個作って、
2箇所だけAIの映像があるので当ててみてくださいみたいなリール作ったんですけど、
多分当たらないですね皆さんが。
当たることはまずないなっていう感じのことをやってみたりとかになるぐらいなんですよ。
だからぜひ皆さんも試しに、
自分で撮った動画とそのAIに作ってもらった動画、
見比べてみてください。
自分で写真撮ったやつと動画にしたやつと最初から動画撮ったやつで見比べてみるといいと思います。
そうするともうないだろうな。
ほぼほぼ変わらんっていうレベルで作れますし、
今なんてこんなめっちゃ抗議のプロンプトなんかいらなくて、
自分がどうしたいかってことを聞けば、
元素材から勝手にジェミニー側が想像してくれて作ってくれるんで、
そんな困ることもなくいいものを簡単に作れるっていう感じになるかなって思います。
ジェミニとGPTの比較
ここまで来たらやらない理由がないみたいな感じですかね。
いいところがあるかなと思います。
めっちゃ可愛いAIがインスタ攻略説明してるアカウントありますが、
あれ本物だと思ってる人も多い気がします。
めっちゃいるでしょうね。
だからこれからってリアルとAIとバーチャルっていうこの3つ、
リアル、AI、バーチャルの3つの境界線がもっとなくなっていく時代だと僕は思ってるんですよ。
つまりリアリティっていうものがあまりにもAIとバランスみたいなところ。
というのでガツって差大差がなくなる。
例えばこの僕が今ここで喋ってるのが、
本当に今後はAIになっても全くわからない時代というのがいずれ来るだろうなと思います。
だって僕って別にここで喋ってても、
ここの映像でめっちゃ変わり映えするような動きをしてるかというとほとんどしてないじゃないですか。
こうやってちょっと目線とか表情とか口先が動いているだけっていうところ。
そこが強い部分があるかなと思いますね。
そこをイメージしていくのがめちゃくちゃ重要なのかなというふうに思っています。
ジェミニじゃないけど、先日添削で出した元動画のサイズ問題。
定規をAIに拡張してもらったらいい感じになりました。
想像だから変なところもあるけどまずまず9大点。
いいですね。
ジェミニだと画像読み込み変になるから弱いけどGPTは動画見までできるから画像だとGPT強く感じる。
どうなんですかね。
コントさんがよくジェミニが画像の読み込みがうまくいかないって言ってるんですけど、
僕があんまりうまくいかなかったことがないんで、そこがちょっと分からないですよね。
別に自分の人物の動画っていう人物の画像、僕自身の画像を突っ込んで動画にしても別に表情とかがちょっと変になるけど、
普通に動く分には普通だしみたいな。
元の画像から変になることもないから。
僕はあんまり経験がないんですよね。
人によってジェミニによって変わることってあるかと思っているんですけど、なんでなんですかね。
そこは変やなって感じですね。
イラストが劣化する。
イラスト?
イラストってなんですかね。
イラストってなんだろう。
分かんない。
まあ、種類にはよるでしょうね。
チャットGPTとかも元のままクオリティを上げるみたいなものはやっぱりジェミニよりも全然チャットGPTの方がいいなと思ったりもしますし、
元を保存していくっていう機能性においては確かにGPTの方がいい説はあるんですよね。
適材適所っていうのが大事かなっていう風に感じますね。
顔だけ変えれる感じ。
AIのディープフェイクっていう機能を使えば顔なんていくらでも簡単に変えられるんで、
AIの可愛い系にできちゃうんで、無限に増産できるけど、
僕はあまりああいう系は好きじゃないので、
好きじゃないし言ってることはあっさりのでみたいなところが大事かなと思いますね。
写真じゃない画像は劣化するみたいです。GPTは問題ないです。
写真じゃない画像って突っ込むときあるんですか?
写真じゃない画像ってあんまし動かすことってなさそうですよね。
でも写真じゃないとしたら、さっきの僕が画面脅威で見せた画像生成、
AIの女性の画像生成ってあれ写真じゃないじゃないですか。
あれ写真じゃないけど、あいつを生成してあいつから動画にしても劣化しなかったのって何ですかね。
そこが反例になっちゃうんで、これをどうか証明してほしいです。
さっきの写真じゃない画像は劣化するっていうものが、
もし性だとしたら、僕がさっき生成したものは写真じゃないけど、
動画生成をしたときに劣化しませんでした。
これ反例になっちゃうんで、それが今正しい性であるということが証明できなくなっちゃうんで、
ぜひこれの証明をどうかよろしくお願いします。
ちょっと数学家っぽいですよね。
僕いつもこういう感じで考えちゃうんで、
人の意見とかをそのまま無能味にするんじゃなくて、
いやこれってどういう場合が反例なんだろうとか考えちゃうんでね。
ちょっと性格悪いかもしれないですけど、
どうかこれの証明をよろしくお願いします。
それを正義とする場合は。
お願いします。
話を戻して、
とにもかくにも、あんまり細かいことは僕的には考えなくていいと思っていて、
細かいこととかめちゃくちゃ小難しいことを考えてほしいわけではなくて、
いろいろ使ってみてほしいんですよね。
というところで、
そこがいろいろ重要かなと思いますね。
ちょっと一瞬また来たね。
リールには使わないです。
アイコンとか頼まれて作りますが、
ジェミニでは劣化ぐちゃぐちゃで出ます。
ん?どういうこと?
リールには使わない。
さっきの僕の質問とちょっとずれた答えになってるんですけど、
アイコンとか頼まれて作るって今日の僕の話とずれてません?
アイコンを作るっていうものになった際は、
それはゼロからの創造になるんで、
それはもうジェミニとかGPTとか関係なしに頑張って、
いろんなイラストを作るっきゃなくねっていう感じになります。
ジェミニは劣化ぐちゃぐちゃって、
そもそもの元のやつをジェミニに投げるとかイラストとかっていう場合は、
今日の僕の話とは全く違う小物になるので、
意図が違うっていうことになっちゃうので、
今僕がAのことを言ってるのに、
今CDぐらいで答えることになっちゃってるんで、
ちょいずれしてますね。
僕が言ってるのは、
普通に自分の動きとか、
自分の生活シーンとかの話ですよ。
料理食べ物のシーンとか、
そういうものとかを使うときに、
リアルに撮った写真をもとに動画作ったら、
自分で動画作るよりも結構いい動画作れんじゃね?
っていう話なわけであって、
アイコンみたいな話だったら、
それは今日の話と意図がずれちゃうので、
そもそも言ってることとやってることが別っていう話になっちゃうから、
動画生成AIの重要性
さっきまでのイラストっていうのも僕の意図と違うし、
写真じゃない画像っていうのも僕の意図と変わっちゃうし、
イラストアイコンとかだったら、
僕の言ってることとまた変わっちゃうので、
ここは今の僕の今日の話の意図とずれてる、
テスト範囲内みたいな感じになっちゃいますね。
今の話も結構大事なところで、
Aというこの範囲内で言ってることに対して、
それの範囲外の要素を言ってしまうと、
それは違うことって出るよねっていう反証は当然起きてしまうので、
そこはめっちゃ重要ですよね。
ここはちゃんと、
今日の内容はどこについて言ってるのかっていうのを
ちゃんと捉えるのは大事な気がします。
以上です。
でも大事な部分ですね。
聞いてる人は常にそういうところは、
聞く側がちゃんと考えなきゃいけなくて、
言ってる側の人の意図というか、
言ってる側の人がどこからどこまでのことを
言ってるかっていうのはすごい大事で、
そこを超えたものとか、
そこじゃない反証事例みたいなものから
引っ張って持ってきてしまうと、
どんな内容であっても、
いくらでも間違ってるって言えてしまうじゃないですか。
直近3年の研究っていうところが
めっちゃ大事だと言ったら、
そこからもっと前の研究結果から持ってきちゃったら、
それは反例って出ちゃいますよね。
そういうのと一緒ですね。
イラストを元にイラストを作ると劣化するという話でした。
写真以外だとGPTがお勧めという話でした。
だとしたらあれですね、
コメントのところで前提条件がなさすぎですね。
もし今のイラストを元にイラストを作ると
っていう話だったということだとしたら、
このコメントを遡ると前提条件がなさすぎて、
多分誰もそれは理解されない状態になっちゃいますよ。
ジェミリだと画像読み込みに変になるから弱いけど、
GPTは動画にできるのか、画像はGPTを使うかで、
イラストが劣化しますみたいな感じになっちゃうと、
どういう話?みたいな感じになっちゃうから、
これはちょっと前提条件が必要系の話だなという感じですね。
でも今のって結構これはいわゆるコミュニケーションとか、
何かの会話っていうところでも重要な、
私、文章で意図を伝えるって時にもすごい重要な考え方ですね。
何かを相手に伝える時には、相手がどこまで分かっているかっていうのを伝える。
全然いいんですよ。毎度言う通り別に、
こういう場のコメントとか何たらで、
僕気にすることって1ミリもないんで、
ただただ、これって大事だよねって思ったところを、
こうやってちゃんと言って深掘りするとか、
ちゃんと正であれば正、不であれば不みたいなものを考えるっていうのが
大事だよねってことを伝えたいっていうだけなんで、
全然気にしてないです。
まあでも、そもそも論として今の話とか含めてで、
めっちゃ大事なのは、とにかく動画生成AIのところですね。
リール動画の未来
全然使える部分は使えると思うんで、
いろいろ使ってみてほしいってことです。とにかく。
だし、使える部分があったら、
それこそショート動画とかにも使ってみてほしいなっていう感じですね。
とにかくまず一番やってほしいのは写真ですね。
写真をリールに使うという概念は、
もうこれでなくした方がいいんじゃないかっていうのが一番ある。
写真を使うっていう行為ですね。
写真を使ってリール動画を作るっていうものは、
もう今後なくなっていくんだろうなって感じですね。
写真使うぐらいだったら、一回動画生成AIで動かしてしまった方がいい。
それで多少変になってでも動かしてた方が興味は引けるじゃないですか。
写真に変にアニメーションを加えるぐらいだったら、
写真を動かし合った方がいいので。
っていう時代になってきたので、いよいよまたリール動画のクオリティってもの、
平均的な全員の取り組むレベル感っていうのは、
大きく上がっていくんじゃないかなっていうのが、
今日感じたことだし、これを信じて使い続ける人と、
使わない人っていうのは、
どこにあるのかっていう部分をちゃんと理解していくっていうのは、
すごい重要なのかなっていうのを、
今日のメッセージとさせていただきます。