2026-02-02 14:49

🎥AI動画編集の実態は?実用レベル超えの事実⚡️自動化はもちろん、感情分析でテロップやSE変更!Remotion+Premiere Pro

AIでの動画編集って「どこまで任せられるの?」という疑問に、実際にリモーションやPremiere Pro、プログラミング用AIを使い倒している立場から話しています。


音声内で触れた感情分類によるPremiere Pro出力&テロップパターン試した時の

https://x.com/koukichi_t/status/1999125685416427649


🎬 このエピソードで話していること

・AI動画編集の現在地と「ここまでは普通にできる」ライン

・リモーションを使ったブラウザ上のタイムライン編集のイメージ

・プログラムが書けなくても、アンチグラビティなどのAIに指示してコードを書かせる流れ

・文字起こしデータから

 - 通常テロップ

 - 強調用ハイライトテロップ

 を自動生成する仕組み

・感情分類(ポジティブ/ネガティブなど)にもとづいて

 - テロップのデザインやアニメーションを変える

 - SE(効果音)を自動で割り当てる

 という「一歩先」の編集アイデア

・SRTやXMLを使ってPremiere Pro側に自動配置していくワークフロー

・Remotionや他サービスで生成した映像・音楽・アバターなどを組み合わせて、最終的な動画を組み上げる考え方


🎯 こんな人におすすめ

・AIでどこまで動画編集が楽になるのか「現場感」を知りたい人

・Premiere Proユーザーで、テロップ入れやSE挿入を少しでも自動化したい人

・リモーションやプログラミング系AI(アンチグラビティ/Claude Code など)に興味がある人

・ショート動画や解説動画で、テロップの見せ方をもう一段アップデートしたいクリエイター

・将来的に自動化ツールを作ってみたい、あるいはツールを活用して制作本数を増やしたい人


💡 エピソードのポイント

・「AI任せで全部完了」ではなく、「ルールづくりと設計」に時間をかければかなり実用的なレベルまで行ける

・テロップは「全部出す」だけでなく

 - 強調したいワードだけを抽出

 - 感情ごとにデザインを変える

 ことで、視聴体験を大きく変えられる

・SEも感情分類と組み合わせると、まとめて自動付与が現実的になる

・映像生成AI、音楽AI、リモーション、Premiere Proを「つなぐ」発想が重要


🎙 まとめ

AI動画編集は「まだ手作業ゼロ」にはならないけれど、

・テロップ

・ハイライト

・SE

・一部のデザイン

といった部分は、工夫次第でかなり自動化できる段階に来ています。

AI編集が気になっている人が、実際の作業レベルをイメージしやすくなるような内容になっています。




Genspark こちらの招待リンク⁠からでクレジット付与となります。

⁠https://www.genspark.ai/invite_member?invite_code=MGFiZjkxYTZMOGNjZkw5ZTM2TDliNTNMNWIwZDNjNWI0MGQx⁠

詳細ルール確認してからお願いします。

招待リンクから登録すると、あなたも招待した友達も1000クレジットもらえる。

GoogleかMicrosoftアカウントで新規登録(2025年5月29日以降)した人だけが対象。


-------------



👑使用中のおすすめ🎖️AIサービスランキング👑

🎙️音声クローンAI「Fish Audio」⁠⁠⁠⁠⁠⁠https://fish.audio/?fpr=kt9990秒くらいの音声を元に驚くほど超再現率高く音声クローンを作成&読み上げさせられるサービス。超おすすめ!


🧠第二の脳。記憶を完全管理?音声常時録音デバイス「Omi AI」(割引コード:KT99 )

⁠⁠⁠⁠⁠⁠https://www.omi.me/?ref=KT99⁠⁠⁠⁠⁠⁠

ペンダント型製品ページ

⁠⁠⁠⁠⁠⁠⁠https://www.omi.me/pages/product?ref=KT99⁠⁠⁠⁠⁠⁠⁠

※競合LimitlessがMetaに買収され炎上。Omi Aiはオープンソースで自分でデータの管理も可能


--

⌨️神:AI音声入力「Aqua Voice」(1カ月無制限?)

⁠⁠⁠⁠⁠⁠https://withaqua.com/share?code=KT-N5GK⁠⁠⁠⁠⁠

「手打ち」も"う"や"め"ま"し"ょ"う"よ"!!人生がもったいない!ガチで時間の無駄!PC音声入力歴5年、Aqua Voiceに出会ってしまいもう手放せない…不満めっちゃあるけど!でも、サブスク1回キャンセルしたものの、ない生活もう無理すぎてすぐ再契約しましたw


Gensparkにも音声入力ツール登場!30日無料利用招待コードはこちら

https://genspark.ai/speakly/invite/MGFiZjkxYTZMOGNjZkwxZDA0TDllMzZiNWMzZDBiOUw1YjUz


--

🤖自立型AI「MANUS」(500 クレジット付与)

⁠⁠⁠⁠⁠https://manus.im/invitation/8USCAUUP8MR4H⁠⁠⁠⁠⁠

細かく継続調査しまくって資料にまとめてくれます!まさに優秀な秘書やアシスタントが側にいる感覚。ブラウザの各サービスへのログイン状態をキープして作業や買い物なども可能!


--

🌍️AIブラウザで自動操作「Comet(Perplexity)」

⁠⁠⁠⁠https://pplx.ai/koukichi_t⁠⁠⁠⁠


--


♫AI音声スタジオ「Elevenlabs」

⁠⁠⁠⁠https://try.elevenlabs.io/xslt0g6h60gj⁠⁠⁠⁠

自分の音声クローン作成/収益化/SE生成/他の言語に置換/ポッドキャスト作成他、音声に関わる色んなことが集約!



#AI動画編集

#Remotion

#PremierePro

#テロップデザイン

#動画編集

#自動化

#動画クリエイター

#AI活用術

サマリー

AIを用いた動画編集の実態として、リモーションとPremiere Proを組み合わせた手法が紹介されています。特に、感情分析を活用したテロップやSEの自動化が長所とされています。このエピソードでは、具体的な編集手法やプロセスが詳しく説明され、実際の操作感や利点が語られています。また、プレミアプロやリモーションを利用したテロップやSEの自動化が解説され、感情分析を通じて編集プロセスの効率化と創造性の向上が可能であることが示されています。

AI動画編集の可能性
最近、動画編集もAIでやっているみたいな話を見かけるけど、実際のところどうなん?って思っている人多いんじゃないでしょうか。
今回は、俺が分かっている範囲、試した範囲でどんなところまでできるか、これは無理。
まあ、これはもちろんね、知識のある人、技術のある人だったらできることもあるだろうけど、個人的に試してどうだったかっていうところ。
一応、Premiere Proとかに関しては結構使えます。もう自負できるぐらい結構使える。はい。
というところで、ちょっと話、よかったら聞いてください。
ケイティーです。ボトル振った通り、AIで動画編集っていうもの。
まず、もう結論から言うと、俺が今使っている段階だと、ちょっと時間かけて、ちゃんと、なんだろうな、このテンプレートになるものというか、分かりやすくいうと、
そういうものが構築できちゃえば、まあ結構ガッツリしたものはできるだろうなって感じです。
まあ単純に例えば背景画像を生成するとか、もしくは用意した画像をどっかのディレクトリに放り込んだら、そこからタイミングよく入れてくれるとか。
あとは、なんかそんな感じの話。あとは例えばテロップの見た目に関しても、パターンを用意しておいてやらせるとか、
あとはもう感覚的にこういう雰囲気のでやってって言って、それで済むような内容であれば、まあOKだろうし。
で、なんか簡単なものに関しては、ちょっと分かりづらくなっちゃったかな。
リモーションの活用
簡単なものに関しては普通にできます。最初の環境だけ構築は必要なので、なんかそのリモーションって呼ばれるもの。
有名なものだとリモーションってやつを使って作業するんだけど、これがリモーションっていうのが何かっていうと、
リモーションっていうものを使うと、ぶっちゃけ、例えばチャットGPTとかにこういう動画を作ってって、文字起こししてこういう動画を作ってって、
この素材の動画はこれだよっていうふうに教えればもう勝手に作ってくれます。本当にまんま作ってくれる。
でもチャットGPTとかで使えるわけではないので、やろうと思ったらなんかやり方あるのかもしれないけどわからないけど、
リモーションってものを使います。リモーションってものに指示をするために、俺で言うとアンチグラビティとかそういうものを使ってます。
あとはクロードコードとか有名なものとかだと。俺はそっち全然使ったことなくてわからなくて、Googleのアンチグラビティしか使ってないんだけど。
アンチグラビティが何かっていうと、プログラムとかソースコードを書いてもらうためのチャット画面にAIが常駐していて、そこに口でタイピングしたっていいんだけどさ、指示を出して、
これこういうアプリを作ってって言うと、そこでGPTとのやり取りみたいに向こうがじゃあこれはどうしますかとか、設計書というかこういう感じで作ったらどうですかみたいな、それに対してこっちが要望を言ったりとか、それで組み立てていくみたいな感じ。
それだけのこと。それでも勝手にアプリとかできてしまうって感じになります。
そのアンチグラビティとリモーションってものを関連付けるというか、リモーションで開発をしてというか動画を作ってってアンチグラビティに指示を出すことによって作ることができます。
めっちゃシンプルに言うと。リモーションってものが何かっていうと、ここはちょっとそのアンチグラビティとかAIのチャットとは全く一回切り離してもらって、ここも俺、掘り下げてがっつりどういうものかってちゃんと説明ができるわけじゃないんだけど、実際に使ってるので、結構前ってことないか、何ヶ月か前ぐらいからか、なんか今みたいに話題にがっつり上がってくる前、なんかちょこっと何人かがこんなすごいのができたって言ってて、
その時に一応触りました。その時点では今ほどは使えてなかったんだけど。だから一応ざっくりと全体像がどんなもの、全体像というかどういうものかっていう話をすると、まずリモーションってものがブラウザで開いて、ブラウザ上に例えばプレミアプロとか、ファイナルカットとか、ダビンチとかみたいにタイムラインとか表示されるんだよね。
そこに対して、ここの状態でここの画面上に、CSSとかそういうので指示を出して、例えば簡単に言ったらメモ帳みたいなのを開いて、そこにタイムコード、何秒のタイミングでこういう文字を表示するって文字を打ち込んで、そこに対してどういうデザインをするかどういうアニメーションをするかっていうのを、分かりやすく言うとプログラムを書くみたいな感じ。
そこの見た目の制御は、メモ帳みたいなのにテキストで書いていくの。テキストで書くことによって、その指定した箇所でこういう動作をするとか、見た目こういうもので出るとかっていうのができます。
感情分析によるテロップ作成
ただ、今言ったのはめちゃくちゃ大変じゃん。何の知識をまずつければいいのかって話になるでしょう。そこへ登場するのがアンチグラビティとかクロードコードみたいな感じのやつになります。そこのAIに指示を出すことによって、これこれこういうふうにしたいからっていうことによって、さっき言った自分で打てないような指示をアンチグラビティとかがやってくれるわけ、指示を出してくれるわけ。
ざっくり言うとこんな感じの構成になります。とは言っても、指示を出したってうまくいかないことなんていうのはさ、普通のチャットGBTとかGemに考えたってもうたくさんあるじゃん。そんな感じのことを同じようにやるから、うまくいかないことってのもあったりはするんだけど、なんか例えばめっちゃシンプルに言うと、例えば動画でよくあるものって動画素材に対してBGMを入れたりとかSEを入れたりとか、あとは一番は字幕とかテロップを入れるみたいなことだと思います。
このテロップのデータに関してはまんま喋ってるまんまであれば、逆に都合がいいのかな。めんどくさい場合もあるかもしれないけど、それこそAIで別にそれはアンチグラビティじゃなくたってさ、GeminiとかGoogle AI Studioとかでもいいだろうし、もう字幕データ作ってもらって、それを配置してつって配置してもらえば済む話。
あとこの語字がどうこうとか、雑字がどうこうっていうところの処理とかはもちろんいろいろやらなきゃいけないけど、めちゃくちゃシンプルに言うと、もうそれだけやれば勝手に文字自体当てます。文字の見せ方をどうするか。なんか雰囲気さ、例えば白文字でドロップシャドウつけてとか、そういう指示を出したりとか、ドロップシャドウは何色にしてとか、そんな指示でもいいだろうし、もうちょっと細かくやるんだったら、例えば俺自身が実際にやってるものだと、全く別でプログラム自分用のものを開発したものがあって、全く別の用途、プレミアプロ上でテロップをうまく表示するためのものっていうのを別で開
流をすることによってリモーションと紐付けてるんだけど、ここで何ができるかっていうと、俺がやってるのは文字起こしをした上で、
5時とかそういうのは修正したりとかするんだけど、そこで強調用のテロップ、全部文字起こしをきれいにまんま出すんではなく、ここぞっていうところで出す、例えば
普通に喋ってる中の30秒に1回ぐらいずつ強調するようなワード、例えばマジビックリとか、例えばね、あとは待望の新機能とかさ、
そんな感じの強調するようなところをまんま喋ってるまんまではなく、あくまで強調するような短くインパクトのある言葉にして、それを抽出とかやって作ってんの、ハイライト用の字幕データみたいな感じで。
それが全部タイムコードに散りばめられていくので、それを書き出してプレミアプロ上で設置するわけ。見た目に関しては俺はプレミアプロ上でいじってるんだけど、その場合は。
今のデータをリモーション側に渡すことによって、強調する部分がここだっていうのが指示が出せるじゃん。
ハイライトって俺は呼んでるけど、ハイライトテロップに関してはこういうデザインにしてって指示をすれば、通常のただの文字起こししたテロップの部分とは差がつけられるでしょ。強調した感じで。
当然、短くまとめたら文字サイズもでかくしやすいから、そこの強調のハイライトの部分に関しては文字サイズでかくしてこういうデザインにしてって。
もっともうちょっとパターンつけるんだったら、例えば2回に1回はデザインを変えてとかさ、そんな感じでいろいろやりようあるじゃん。
俺はもっと細分化していって、これは全く別の話ね、さっき言った。自分用に開発したさっきのハイライトとか作るってやつの中に、例えばショート用の文字の出し方、めっちゃ短文でポンポンポンポン出てくるものとか、複数パターン用意したの。
リサーチ用の、これはちゃんとリサーチをした上で話した、例えば製品名とか、なんかさ、ちょっと特殊な言葉に関してはリサーチした上で文章で説明を字幕として設置できるようにしたの。
必要に応じてそれはもう簡単にプレミアプロに取り込めるから、必要だったら設置すればいいし、不要と思えば削除すればいいし、そこにはデザインは後でつけるんだけど。
これもリモーションの側にも持ってけるわけ、指示さえ出してしまえば。解説にあたるようなものも自動で入れられるし、そんな感じでいくらでもプログラム別で組んであるから、俺はそこで加工ができるような状態になってます。
そことリモーションを今ちょうどひも付けようとしているところ、簡単なものは使えているんだけど。そう、みたいな感じで今はなんとなくわかるでしょうか。だから全部お任せでさ、例えば、そうだな、そんなに俺もいろんなものTwitter上で見てるわけじゃないけど、テロップとかのレベルで言うと、例えばなんか雰囲気を伝えて、こんな感じで出力してもらったみたいなパターンが多い気がするんだよね。
なんかね、見てみると、いろんなものを組み合わせると、例えばアバターみたいなものを動かしたりとか、リップシンクしてとか、あとBGMを入れてとか、あとは背景の動画が入ってとか、そういうもので組み合わせるとなんかいい感じには見えるんだけど、結局のところテロップのところに関してめちゃくちゃこだわってる人ってまだあんまりいないかなって、本気の動画編集、海外の人とかだとそこのテロップに関しても力を入れてやってる人たちもいるんだけど、なんかぱっと見とりあえずただ文字が出てるだけだなみたいな、ちょっとだけデザインがあってみたいな、そんなのが結構多い印象であります。
でも要は足すじゃん、もうそれで十分。文字起こしでさ、音が聞こえてなくたって文字が読めるっていう状態は重要なわけだからテロップが入ってるってことで。だからその程度でもう全然いいんだとは思うんだけど、もっと上に行くんだったらさっき言ったみたいなやり方。
もう本当にね、俺がやってるのはさっき言ったのはさ、普通の文字起こしのデータ、喋ってるまんまのテロップと、プラスで強調のテロップを出せるようにしてあるって言ったじゃん。それとは別にね、感情分類っていうのを俺やってあって、文字起こししたデータの中から感情分けを5パターンぐらいグループに分けてます。
自動で分けさせる。まあちょっとまあ違いも出てきちゃうから、自分で目視で確認は必要だったりするんだけど。で、そういうふうに分けることによって、単純にトリガーになるというか、その分類、例えばネガティブ、ポジティブ、
例えば製品とかだったらスペックとか、あとは人のびっくりしたような感じとか、そういうふうに分類をしてあるの。で、例えばポジティブのところにはこういうデザインにしてとか、ネガティブに関してはこういうデザインとアニメーションにしてっていうのを、まあやろうと思えば指示は出せるわけよ。そこをちょっと今詰めていってる最中なんだけど。
AIによる動画編集の自動化
そういうふうにすると、もうパターン、こういう場合はこういうものっていうののデータ側のそのテロップとか文字の方の情報と、そこに対してリモーションなり、アンチグラビティ側で指示を出して、そのポジティブのテロップにあたるところにはこういうものっていう組み合わせをしていけばさ。で、プラスそのポジティブに対して書けるデザインとかアニメーションっていうのを複数用意しておけば事前に、テンプレート的にね。そこをランダムで書けてみたいなことだったらさ、結構自由度広がるじゃん。っていうのがなかなかちょっと今うまくはいっていないんだけど。
そう、同じ感じでこれはまだね、あの本当にやろうとしている最中なんだけど、あとはもう本当にさ、動画の左上にさ、毎回見出しみたいに各パートごとに切り替わっていくみたいなのってよくあるじゃん。あの例えばパート1、パート2、パート3。例えば俺のポッドキャストとかで言ったら、YouTubeの新機能最初に話して、その次にTikTokショップについてみたいな感じで、それが左上でこう変わっていくってなんとなくわかるよね。あの見出しとしてテレビ、テレビ番組とかも出るじゃん。そういう感じのものだって別にやろうと思えばできるし。
でもちょっと手間だから、手間だからっていうかちょっとね、一個一個ね確認しながらやっている最中だから、手が回らずにそこまで進めてはないんだけど。まぁ実際のところ今俺がメインでやっているのって、その動画編集に関しては、えっとね、プレミアプロ側でもっといい感じにできないかなとか、そこにAIを絡ませていい感じにできないかって、まぁ結構できてはいるんだけど。やっぱね、突き詰めてガッツリやるものになるとやっぱり自分で結構やるしかない部分はあるんだけど。さっき言ったみたいにね、本当に今リモーションの話してるけど、そうじゃなく、そのハイライトとか感情分類したテロップを自動でXMLとして書き出してプレミアプロ上に配
してみたいなところをやってます。ちょっと難点もあって、そのまんまではいけてないんだけど、SRTという字幕ファイルとの組み合わせでやって、まぁさっき言ったみたいに5分類ぐらい、ポジティブ、ネガティブとかやっておけば、プレミアプロ上に自動で、まぁ半自動で設置した状態で、もう一括で選択して、そのポジティブのところはこのデザイン、このアニメーションってやっちゃう。もうそれでもう完成しちゃうけど、そこ。ちゃんと動きがあってちゃんとデザインが違うもの、プレミアプロ上で。プレミアプロ上だから、結構ガッツリしたデザインも加えられるし、で、SEとかももう自動で入れられるように
文字起こしして、ハイライトでテロップを入れるタイミングのところと合わせて、SEを、それこそね感情分類で、音に関して感情分類重要じゃん。
ポジティブ、ネガティブと使う音って全然違うじゃん。もちろん見せ方だってそうだけど、見せ方はさ、まぁぶっちゃけ、同じ文字だって悪いことはないじゃん。そこに対して音って重要だと思うから、音はだからネガティブの時だったら、
あの、なんかね、ピアノの単音の、単音の、なんていうんだ、ポーンみたいな、ポーンじゃないっけ。なんか、そういう音あるじゃん。
あとはチーンとかさ、笑えるようにとかチーンって入れるとか、なんか、ハンマーで叩いたみたいなこととかあると思うけど、その感情分類をしておくことによって、感情分類に、各感情分類にSE何パターンか設定してランダムでとかにすると、ここね、そのSEも一発で設定できる、SEも結構めんどくさいから動画編集する人だと分かると思うけど、かといって入ってると入ってないのじゃ、全然やっぱりリラックスリスとかって違うと思うので。
そう、みたいな感じで、まあそう、プレミアプロの方でガッツリやりつつ、リモーション側で自動化できるとこは、もっと自動化できないかなっていうところで。だから多分、ちゃんと、まあなかなかな、あの行っては戻ってきてみたいなブックアイテムみたいなことを繰り返してるから、ちょっと突き詰めてできてないからなんだけど、なんかそれを完成させたらどうこうしようって思っているわけでもないから、現時ではね。
ガッツリ自動化できるんだったら、なんかそれこそあれだよね、シンプルなものをガツガツ受けるってこともできるかもしれないし、そのツール自体を販売するとかもできるかもしれない。まあ販売って現実的じゃないと思うけど、まあまあなんかとりあえずそんな感じを試しているとこです。まあ今回のお話でどれだけ伝わるかわかんないけど、全くそのAIで動画編集っていうのの感覚とか、どんなものができるのかっていうのが伝わらない人に関しては、ちょっと実際に作業レベルでの話にはなってしまったけど、成果物って感じではないけど、なんか今の話からして、ああある程度のものはできるのかなっていうような想像がつくんじゃないかなと。
思います。もちろん突き詰めていけば、途中でチラッと触れたみたいに画像を生成するとかっていうのも、もちろんね、今言った俺の方で言ったテロップを感情分離してみたいなことができるわけだから、そこと絡ませればさ、このハイライトに関してはこういう内容なんだなって。画像を作るとかだったら、それこそテロップの内容自体で、そこからさ読み取れるものがあるから、それに合わせた画像が作れると思うけど、場面場面でそういうこともできるし、なんかね結構いろんなことできます。全然。
で、あとはなんかだからさ、途中でみたいな、いろんなものを組み合わせて、アバタンリピンクシンクさせてとか、なんか映像が流れてる、流れてる映像に関してもAIで作ったものだとか言ってるものっていっぱいあると思うけど、あれは結局のところ、別にそのリモーション上でやってるわけじゃないから、いろんな、まあ何でもそうかもしれないけど、AIってあのいろんなサービスのものを組み合わせてやってるだけであって、例えばまああれだね、よくあるMV系のものとかだと、グロックの、あのあれね、X、TwitterのAIのグロック、グロックイマジンって呼ばれるもの。まあ俺は結構前からそれ触れて、触ってたりして話に挙げてたけど。
それを使って見た目に関しては作って、そこに関してリップシンクは別のものでやってとか、音楽に関してはスノーで作ってとか、なんかそんな感じで、まあ組み合わせで最終的に動画にする時の素材としてそういう風に作ったものを集めて、リモーションとそれこそアンチグラビティとか、で、アンチグラビティに指示を出してリモーションでその素材をまとめて動画に一本にしてもらうみたいな感じのイメージです。
なんか自分で話してて、ちょっと最初に言ってたことと整合性が取れてるかわからんけど、もうちょっと今、空き時間で話そうと思って収録をしたので、今回もNashing Phoneの3A、はい、使って収録となりました。はい、ちょっと他に今やることあるので、この後また作業しようと思います。はい、では今回以上となります。さよなら。
14:49

コメント

スクロール