2025-12-08 06:38

無理😭TikTokの裏AI「Vidi」に挑む!動画編集の未来を変えるByteDance(TikTok/CapCut親会社)最強AIの知られざる実力と可能性

ByteDanceが誇る最強AI「Vidi」!TikTokの「Smart Split」機能の裏側に隠された、その驚くべき実力と、ローカル環境での挑戦の顛末をKoukichi-tが徹底解説!動画クリエイターなら絶対に知っておくべき、AI動画編集の最前線情報をお届けします。Vidi-7Bを自宅PCで動かそうとした結果は…?


✅️使用中AIサービス

◆音声クローンAI:Fish Audio(なんか特典あったはず)

https://fish.audio/?aff=QLO4F7WRJEUDC⁠ 

◆第二の脳をGET 音声常時録音:Omi AI(割引コード:KT99 )

https://www.omi.me/?ref=KT99⁠

ペンダント型製品ページ

https://www.omi.me/pages/product?ref=KT99⁠

◆神:AI音声入力:Aqua Voice(1カ月無制限?)

https://withaqua.com/share?code=KT-N5GK⁠

◆自立型AI「MANUS」

https://manus.im/invitation/8USCAUUP8MR4H⁠

◆AIブラウザで自動操作:Comet(Perplexity)

◆音声クローンAI:Elevenlabs

https://try.elevenlabs.io/xslt0g6h60gj⁠


このエピソードでは、Vidiのポテンシャルと、現状の課題をリアルな体験談を交えながら深掘り。AI動画編集の可能性、そしてクリエイターがVidiをどのように活用できるのか、具体的なヒントが満載です。


**こんな人にオススメ!**


* 動画クリエイター

* TikTokユーザー

* AI技術に興味がある人

* 動画編集を効率化したい人


**主なトピック:**


* ByteDance Vidiとは?

* TikTok Smart Splitの裏側

* AI動画編集の可能性

* ローカル環境でのVidi-7B挑戦記

* 動画生成AIの未来


さあ、Vidiの世界へ飛び込もう!動画編集の未来は、もうすぐそこまで来ている!


#TikTok #Vidi #ByteDance #AI動画編集 #動画生成AI #CapCut #SmartSplit #クリエイター #テックトレンド #AI活用 #動画編集 #Shorts #動画マーケティング #AIツール #クリエイターエコノミー

サマリー

このエピソードでは、ByteDanceが開発したAI「ビディ」の驚くべき機能と動画編集への影響について掘り下げています。ビディは動画の内容を理解し、自動で編集する能力を持ち、特に長尺動画の処理においてその能力を発揮しています。

ビディの革命的機能
今回は、ちょくちょく触れているFishAudioという音声クローンの生成AI。
こちらで久しぶりにブログの記事を書いた、ちょっといろいろとAIを使ってプログラムを書いていく中で触れた、ちょっとしたTikTok関連のものがあったんだけど、
そこに関して記事をAIで書いて、そしてそれを台本にして、
読み上げを音声クローンに読み上げさせる際に、こういう名詞の英語とかだと本格的な英語の発音になったりとか、いろいろ問題があるので、
そこをAIが読み上げしやすいように書いた台本を、それもAIで作って、アンチグラビティで作っているものなんだけど、そこで読み上げさせたものをこの後流そうと思います。
内容に関してはBiddyと呼ばれるTikTokのAIの裏側に存在しているやつ。
とりあえずそれを試してみたという内容としては、AIのほうに書いてもらった文章もあるので、俺の知識以外のことが挙がっていることもあります。
要はアンチグラビティにプログラムをBiddyに絡むことを作業してもらった中で、トラブルがいろいろ発生して、その経緯でアンチグラビティは眺めているわけじゃん。
中宮ジェミンなわけだけど。だから俺の苦悩も、いろいろ試した苦悩も含んだ文章を書いてって言ったら、
俺が主役として主人公として話をしているふうになっているんだけど、これこういうトラブルが起きてって言ってるんだけど、めっちゃ専門的なことを言っていて俺には何のことかわからんみたいな感じです。
ということでこの後、よかったら最後までチェックしてください。
フィッシュオーディオ。今回いろいろと普段フィッシュオーディオに読み上げさせているのとまた違って、API経由にしてみました。
API経由で俺は自分の知識だけではできないんだけど、一昔前は自分で調べながらで何とかAPI使ってやったこととかもあったりしたんだけど、今は本当にアンチグラビティに全部お願いしてサクッと作れたので、
サクッとしてもいろいろエラーが出たりとかで問題があることもあるんだけど、それでAPI経由で俺の声をフィッシュオーディオ本体側のものを呼び出してやってる感じです。
だから読み上げがちょっと不自然に感じる。いつものやつも俺ぴったりなわけではないんだけど、一応俺の声を使って読んでるので、ちょっとイントネーションおかしかったりするかもしれないけど、そういうところも含めてチェックしてみてください。
実用性は高いとは一応思うので、その後はリンク貼っておくので、そこからだと多分10ドル分なんだか1ヶ月分か何か確かついたと思うので、ということでこの後ぜひ聞いてみてください。
こんにちは、ケイティーです。今日はちょっとマニアックですが、動画クリエイターなら絶対知っておくべきバイトダンスの最強AI、ビディについて深掘りしていこうと思います。
以前ポッドキャストでTikTokの新機能スマートスピリットがすごいって話をしたの覚えてますか?
キャップカットにはもともとあった長尺動画を自動でショート動画に分割してくれる機能です。あれがTikTok本体にも実装されたって話ですね。
今回のメインテーマはその裏側にいるバケモノAIの話です。その名もビディ。まずはビディって何者っていう話から。一言で言うと動画の内容を人間並みにあるいはそれ以上に理解して勝手に編集までしちゃうAIです。
バイトダンスTikTokの親会社が開発したこのモデル。ただ動画を見てるだけじゃありません。ヤバいポイントを2つ紹介します。
一つ目は時間と場所の完全特定です。普通のAIだとこの動画のどこかに犬がいるくらいしかわかりません。でもビディは違います。
開始3分20秒から45秒の画面右下のこの座標に犬がいるとピンポイントで理解しています。
ここまでわかってるから横長の動画から縦型動画への自動リフレーム、つまり切り抜きが完璧にできるわけです。
二つ目は文脈を読んだハイライト抽出です。これがスマートスプリットの正体です。面白いところやオチを理解して何も指示しなくても勝手に切り抜いてくれます。
30分以上の長尺動画も一発で処理できるのが強みです。これ他の技術だと結構難しいんです。
つまりキャップカットやTikTokで我々がお世話になっているあの便利機能、その中身こそがこのビディだったというわけです。
さてここからは失敗談です。そんなにすごいAIなら俺のPCで動かせば最強じゃんって思いますよね。俺も思いました。
ビディの使用と課題
相棒のAIエージェントアンチグラビティと一緒にこのビディ、正確にはオープンソース版のビディ7Bをローカル環境で動かそうと試みたわけです。
挑んだ環境はWindows PCのWSL2環境。そこそこ強いGPUも積んでます。結果は惨敗でした。きつかったです。
まず環境構築の難易度がえぐりです。過剰枠で言うと以下の3点に苦しめられました。
1つ目、フラッシュアテンションが入らない。2つ目、WSLの依存関係で無限にエラーが出る。3つ目、やっと動いたと思ったら空打アウトオブメモリー、つまりメモリ足りねえようで落ちる。
結局、Googleコラボというクラウド上の超強いマシンを使えば動くことはわかったんですが、自宅のPCでサクッと全自動動画生成という夢は一旦お預けになりました。
教訓としては、ビディは一般人が手元で飼うペットじゃなくてバイトダンスの巨大サーバーという檻の中でこそ輝く猛獣でした。
素直にTikTokやキャップカットの機能として使うのが現時点では一番賢いし早いです。
最後にまとめです。ビディはどう使うべきか。今回の調査と実験でわかったことはシンプルです。以下の3点になります。
1つ目、ビディは動画理解AIの最先端であることは間違いないこと。
2つ目、TikTokスタジオやキャップカットのスマートスプリットの裏側にはこのビディがいる可能性が極めて高いこと。
3つ目、ローカルで動かすのは修羅の道だということ。
エンジニアレベルの知識とモンスター級のGPUマシンが必要です。
KT的な結論としては、中身を知ってツールとして使い倒そう。これにつきます。
裏でこんなすごいAIが動いてるって知ってるだけで、ツールの使い方が変わる気がしませんか。
あ、今ビディが俺の動画解析してるなーって思いながら、スマートスプリットボタンを押すと、ちょっと愛着が湧くかもしれません。
もしどうしてもローカルで動かしたいっていう問題者がいたら、Googleコラボのプロプランを契約してから挑むことを強くお勧めします。
俺みたいに時間を溶かさないようにしてくださいね。
それではまた。
06:38

コメント

スクロール