ただ、今言ったのはめちゃくちゃ大変じゃん。何の知識をまずつければいいのかって話になるでしょう。そこへ登場するのがアンチグラビティとかクロードコードみたいな感じのやつになります。そこのAIに指示を出すことによって、これこれこういうふうにしたいからっていうことによって、さっき言った自分で打てないような指示をアンチグラビティとかがやってくれるわけ、指示を出してくれるわけ。
ざっくり言うとこんな感じの構成になります。とは言っても、指示を出したってうまくいかないことなんていうのはさ、普通のチャットGBTとかGemに考えたってもうたくさんあるじゃん。そんな感じのことを同じようにやるから、うまくいかないことってのもあったりはするんだけど、なんか例えばめっちゃシンプルに言うと、例えば動画でよくあるものって動画素材に対してBGMを入れたりとかSEを入れたりとか、あとは一番は字幕とかテロップを入れるみたいなことだと思います。
このテロップのデータに関してはまんま喋ってるまんまであれば、逆に都合がいいのかな。めんどくさい場合もあるかもしれないけど、それこそAIで別にそれはアンチグラビティじゃなくたってさ、GeminiとかGoogle AI Studioとかでもいいだろうし、もう字幕データ作ってもらって、それを配置してつって配置してもらえば済む話。
あとこの語字がどうこうとか、雑字がどうこうっていうところの処理とかはもちろんいろいろやらなきゃいけないけど、めちゃくちゃシンプルに言うと、もうそれだけやれば勝手に文字自体当てます。文字の見せ方をどうするか。なんか雰囲気さ、例えば白文字でドロップシャドウつけてとか、そういう指示を出したりとか、ドロップシャドウは何色にしてとか、そんな指示でもいいだろうし、もうちょっと細かくやるんだったら、例えば俺自身が実際にやってるものだと、全く別でプログラム自分用のものを開発したものがあって、全く別の用途、プレミアプロ上でテロップをうまく表示するためのものっていうのを別で開
流をすることによってリモーションと紐付けてるんだけど、ここで何ができるかっていうと、俺がやってるのは文字起こしをした上で、
5時とかそういうのは修正したりとかするんだけど、そこで強調用のテロップ、全部文字起こしをきれいにまんま出すんではなく、ここぞっていうところで出す、例えば
普通に喋ってる中の30秒に1回ぐらいずつ強調するようなワード、例えばマジビックリとか、例えばね、あとは待望の新機能とかさ、
そんな感じの強調するようなところをまんま喋ってるまんまではなく、あくまで強調するような短くインパクトのある言葉にして、それを抽出とかやって作ってんの、ハイライト用の字幕データみたいな感じで。
それが全部タイムコードに散りばめられていくので、それを書き出してプレミアプロ上で設置するわけ。見た目に関しては俺はプレミアプロ上でいじってるんだけど、その場合は。
今のデータをリモーション側に渡すことによって、強調する部分がここだっていうのが指示が出せるじゃん。
ハイライトって俺は呼んでるけど、ハイライトテロップに関してはこういうデザインにしてって指示をすれば、通常のただの文字起こししたテロップの部分とは差がつけられるでしょ。強調した感じで。
当然、短くまとめたら文字サイズもでかくしやすいから、そこの強調のハイライトの部分に関しては文字サイズでかくしてこういうデザインにしてって。
もっともうちょっとパターンつけるんだったら、例えば2回に1回はデザインを変えてとかさ、そんな感じでいろいろやりようあるじゃん。
俺はもっと細分化していって、これは全く別の話ね、さっき言った。自分用に開発したさっきのハイライトとか作るってやつの中に、例えばショート用の文字の出し方、めっちゃ短文でポンポンポンポン出てくるものとか、複数パターン用意したの。
リサーチ用の、これはちゃんとリサーチをした上で話した、例えば製品名とか、なんかさ、ちょっと特殊な言葉に関してはリサーチした上で文章で説明を字幕として設置できるようにしたの。
必要に応じてそれはもう簡単にプレミアプロに取り込めるから、必要だったら設置すればいいし、不要と思えば削除すればいいし、そこにはデザインは後でつけるんだけど。
これもリモーションの側にも持ってけるわけ、指示さえ出してしまえば。解説にあたるようなものも自動で入れられるし、そんな感じでいくらでもプログラム別で組んであるから、俺はそこで加工ができるような状態になってます。
そことリモーションを今ちょうどひも付けようとしているところ、簡単なものは使えているんだけど。そう、みたいな感じで今はなんとなくわかるでしょうか。だから全部お任せでさ、例えば、そうだな、そんなに俺もいろんなものTwitter上で見てるわけじゃないけど、テロップとかのレベルで言うと、例えばなんか雰囲気を伝えて、こんな感じで出力してもらったみたいなパターンが多い気がするんだよね。
なんかね、見てみると、いろんなものを組み合わせると、例えばアバターみたいなものを動かしたりとか、リップシンクしてとか、あとBGMを入れてとか、あとは背景の動画が入ってとか、そういうもので組み合わせるとなんかいい感じには見えるんだけど、結局のところテロップのところに関してめちゃくちゃこだわってる人ってまだあんまりいないかなって、本気の動画編集、海外の人とかだとそこのテロップに関しても力を入れてやってる人たちもいるんだけど、なんかぱっと見とりあえずただ文字が出てるだけだなみたいな、ちょっとだけデザインがあってみたいな、そんなのが結構多い印象であります。
でも要は足すじゃん、もうそれで十分。文字起こしでさ、音が聞こえてなくたって文字が読めるっていう状態は重要なわけだからテロップが入ってるってことで。だからその程度でもう全然いいんだとは思うんだけど、もっと上に行くんだったらさっき言ったみたいなやり方。
もう本当にね、俺がやってるのはさっき言ったのはさ、普通の文字起こしのデータ、喋ってるまんまのテロップと、プラスで強調のテロップを出せるようにしてあるって言ったじゃん。それとは別にね、感情分類っていうのを俺やってあって、文字起こししたデータの中から感情分けを5パターンぐらいグループに分けてます。
自動で分けさせる。まあちょっとまあ違いも出てきちゃうから、自分で目視で確認は必要だったりするんだけど。で、そういうふうに分けることによって、単純にトリガーになるというか、その分類、例えばネガティブ、ポジティブ、
例えば製品とかだったらスペックとか、あとは人のびっくりしたような感じとか、そういうふうに分類をしてあるの。で、例えばポジティブのところにはこういうデザインにしてとか、ネガティブに関してはこういうデザインとアニメーションにしてっていうのを、まあやろうと思えば指示は出せるわけよ。そこをちょっと今詰めていってる最中なんだけど。
そういうふうにすると、もうパターン、こういう場合はこういうものっていうののデータ側のそのテロップとか文字の方の情報と、そこに対してリモーションなり、アンチグラビティ側で指示を出して、そのポジティブのテロップにあたるところにはこういうものっていう組み合わせをしていけばさ。で、プラスそのポジティブに対して書けるデザインとかアニメーションっていうのを複数用意しておけば事前に、テンプレート的にね。そこをランダムで書けてみたいなことだったらさ、結構自由度広がるじゃん。っていうのがなかなかちょっと今うまくはいっていないんだけど。
そう、同じ感じでこれはまだね、あの本当にやろうとしている最中なんだけど、あとはもう本当にさ、動画の左上にさ、毎回見出しみたいに各パートごとに切り替わっていくみたいなのってよくあるじゃん。あの例えばパート1、パート2、パート3。例えば俺のポッドキャストとかで言ったら、YouTubeの新機能最初に話して、その次にTikTokショップについてみたいな感じで、それが左上でこう変わっていくってなんとなくわかるよね。あの見出しとしてテレビ、テレビ番組とかも出るじゃん。そういう感じのものだって別にやろうと思えばできるし。
でもちょっと手間だから、手間だからっていうかちょっとね、一個一個ね確認しながらやっている最中だから、手が回らずにそこまで進めてはないんだけど。まぁ実際のところ今俺がメインでやっているのって、その動画編集に関しては、えっとね、プレミアプロ側でもっといい感じにできないかなとか、そこにAIを絡ませていい感じにできないかって、まぁ結構できてはいるんだけど。やっぱね、突き詰めてガッツリやるものになるとやっぱり自分で結構やるしかない部分はあるんだけど。さっき言ったみたいにね、本当に今リモーションの話してるけど、そうじゃなく、そのハイライトとか感情分類したテロップを自動でXMLとして書き出してプレミアプロ上に配
してみたいなところをやってます。ちょっと難点もあって、そのまんまではいけてないんだけど、SRTという字幕ファイルとの組み合わせでやって、まぁさっき言ったみたいに5分類ぐらい、ポジティブ、ネガティブとかやっておけば、プレミアプロ上に自動で、まぁ半自動で設置した状態で、もう一括で選択して、そのポジティブのところはこのデザイン、このアニメーションってやっちゃう。もうそれでもう完成しちゃうけど、そこ。ちゃんと動きがあってちゃんとデザインが違うもの、プレミアプロ上で。プレミアプロ上だから、結構ガッツリしたデザインも加えられるし、で、SEとかももう自動で入れられるように
文字起こしして、ハイライトでテロップを入れるタイミングのところと合わせて、SEを、それこそね感情分類で、音に関して感情分類重要じゃん。
ポジティブ、ネガティブと使う音って全然違うじゃん。もちろん見せ方だってそうだけど、見せ方はさ、まぁぶっちゃけ、同じ文字だって悪いことはないじゃん。そこに対して音って重要だと思うから、音はだからネガティブの時だったら、
あの、なんかね、ピアノの単音の、単音の、なんていうんだ、ポーンみたいな、ポーンじゃないっけ。なんか、そういう音あるじゃん。
あとはチーンとかさ、笑えるようにとかチーンって入れるとか、なんか、ハンマーで叩いたみたいなこととかあると思うけど、その感情分類をしておくことによって、感情分類に、各感情分類にSE何パターンか設定してランダムでとかにすると、ここね、そのSEも一発で設定できる、SEも結構めんどくさいから動画編集する人だと分かると思うけど、かといって入ってると入ってないのじゃ、全然やっぱりリラックスリスとかって違うと思うので。
そう、みたいな感じで、まあそう、プレミアプロの方でガッツリやりつつ、リモーション側で自動化できるとこは、もっと自動化できないかなっていうところで。だから多分、ちゃんと、まあなかなかな、あの行っては戻ってきてみたいなブックアイテムみたいなことを繰り返してるから、ちょっと突き詰めてできてないからなんだけど、なんかそれを完成させたらどうこうしようって思っているわけでもないから、現時ではね。
ガッツリ自動化できるんだったら、なんかそれこそあれだよね、シンプルなものをガツガツ受けるってこともできるかもしれないし、そのツール自体を販売するとかもできるかもしれない。まあ販売って現実的じゃないと思うけど、まあまあなんかとりあえずそんな感じを試しているとこです。まあ今回のお話でどれだけ伝わるかわかんないけど、全くそのAIで動画編集っていうのの感覚とか、どんなものができるのかっていうのが伝わらない人に関しては、ちょっと実際に作業レベルでの話にはなってしまったけど、成果物って感じではないけど、なんか今の話からして、ああある程度のものはできるのかなっていうような想像がつくんじゃないかなと。
思います。もちろん突き詰めていけば、途中でチラッと触れたみたいに画像を生成するとかっていうのも、もちろんね、今言った俺の方で言ったテロップを感情分離してみたいなことができるわけだから、そこと絡ませればさ、このハイライトに関してはこういう内容なんだなって。画像を作るとかだったら、それこそテロップの内容自体で、そこからさ読み取れるものがあるから、それに合わせた画像が作れると思うけど、場面場面でそういうこともできるし、なんかね結構いろんなことできます。全然。
で、あとはなんかだからさ、途中でみたいな、いろんなものを組み合わせて、アバタンリピンクシンクさせてとか、なんか映像が流れてる、流れてる映像に関してもAIで作ったものだとか言ってるものっていっぱいあると思うけど、あれは結局のところ、別にそのリモーション上でやってるわけじゃないから、いろんな、まあ何でもそうかもしれないけど、AIってあのいろんなサービスのものを組み合わせてやってるだけであって、例えばまああれだね、よくあるMV系のものとかだと、グロックの、あのあれね、X、TwitterのAIのグロック、グロックイマジンって呼ばれるもの。まあ俺は結構前からそれ触れて、触ってたりして話に挙げてたけど。
それを使って見た目に関しては作って、そこに関してリップシンクは別のものでやってとか、音楽に関してはスノーで作ってとか、なんかそんな感じで、まあ組み合わせで最終的に動画にする時の素材としてそういう風に作ったものを集めて、リモーションとそれこそアンチグラビティとか、で、アンチグラビティに指示を出してリモーションでその素材をまとめて動画に一本にしてもらうみたいな感じのイメージです。
なんか自分で話してて、ちょっと最初に言ってたことと整合性が取れてるかわからんけど、もうちょっと今、空き時間で話そうと思って収録をしたので、今回もNashing Phoneの3A、はい、使って収録となりました。はい、ちょっと他に今やることあるので、この後また作業しようと思います。はい、では今回以上となります。さよなら。