#139 Podcastの編集を自動化してみた&Appleの製品発表が気になる話

近況報告とポッドキャスト編集自動化ツールの紹介

よろしくお願いします。

Osamuです。 Takumaです。

TECHNOTREK.fmは、ITフリーランスで海外MBA留学中のOsamuと、同じくITフリーランスのTakumaが、ガジェット、仕事、暮らしについて話をするPodcastです。

久しぶりの収録ですね。

長らくご無沙汰しておりました。

リアルリスナーの皆様から、更新はまだですか?と疲れることが増えてきた頃には、そろそろちゃんと撮らなきゃ。

そうなの?

リアルリスナーの皆様から。

1ヶ月ぶりだわ。

収録?

1ヶ月ぶりだ。

本当だ、前回のショーの後がちょうど1ヶ月前。

そう、1月26日で、その後、俺が日本に出張で行き、その出張で大風邪を持って帰ってきてもらい、持って帰ってきてしまい。

大丈夫?

そう、リスクにリスクを。

インフルエンザとかじゃなかったの?

分かんねえ。

長いってことはインフルエンザの可能性高いけど、今めちゃくちゃ流行ってて。

第2波来てます今。

インフルエンザ、A型、B型っていう概念はすごい久しぶりに見た。

クライアントのスラックでもみんなバタバタとインフルエンザです、インフルエンザです、みたいになって倒れていってて。

誰が生き残れるかゲーム。リモート組だけみんなピンピンしてるね。

不幸中の災害としては、こっちで俺だけ体調崩してたまに会う人とかもいるわけだけど、その人たちに全く映ってないから。

それ良かったね。

インフルっていうほどじゃないのかもしれないけど、俺だけ熱は出るわ。

咳しすぎて、まだ治ってないんだけど、咳で寝れないんですよね。

マジか。

しんどいわ。

ちなみにちょっと余談だけど、オーラリングを4に新調したんですよ。

睡眠トラックも今年からまだ始めようって思ってるんだけど、顕著に睡眠質が下がっていて、風邪なんて引くもんじゃないなと。

咳で寝れないっていう。

睡眠障害に泣きっ面に蜂の。

ね。

聞いているみなさんもご自愛頂けたらと。

健康は大事で。

今日はそんな俺が寝込んでいる中、たくまが素晴らしい自動化を組み上げてくれたところで、本当にたくまはこういうのマジですごいなと思ったんだけど、その話はちょっと触れられたら幸いですわ。

確かにね、何をやったかという話で言うと、

ポッドキャスト我々収録する度に1回1回交代交代で順番を担当性にして編集をしてるんですよね。

編集は大したことないんだけど、お互いにローカルで録った音声をシンクさせて同期させて、音量のラウドネスってやつとか、あとノーマライズしてアドリミットかけて、

ノイズリラクションかけて、最後にエンドクレジット入れてBGMつけて納品みたいなのをアドビのオーディションっていう付き合いさん予選するよね。

単体契約だと。

のアプリを使ってやっているんだけれども、それをワンクリックで終わるようにしたという。

もう素晴らしい。

できるんだっていうね。

素晴らしすぎる。

そもそも。

ちなみにこれクリエイティブクラウドプロにすると今月曜日1万もするんだね。

そうだよ、ファイアフライだっけ、アドビのAIで勝手にクリエイティブクラウドプロっていうのが勝手にできて、勝手にそっちのプラになってみんな値上がりしてバカみたいなビジネスをアドビ君はやってるんですけれども、

俺はアドビ勢が嫌いなので。

いやーまあね。

唯一のアドビがこれだったのがオーディションだったんだけど、こいつ消せねえかと思って。

最近ね、いろいろちょっとこれ多分もうエピソード話せないけど、確定申告用のアプリ作ったり、

あと仕事のスマークで、

フリーのやつね、フリーもアップするしないと請求書の自動作成の予約の上限数っていう謎のリミットがプラについてかけられてて、

それだけのために倍払うのはって思ってクロードコードに作らせて、何なく今今月の請求書から上限を超えて発行されてるんですけれども、

そういうのとか、いろいろこうなんかこれ絶対作れるよなって頭の中でこうコードは書けないけど、

これのAPI繋いでこうやったらいけるよねっていうものはポンって作れるから、それを多分10個ぐらい今月作ってるんだけど、

の中の一つの中で結構の自信作がこのPodcastの自動編集のやつで。

結構頑張ったねこれ。

いやなんか、今バージョン3ぐらい、メジャーなバージョンで言うとローカルのがあって、

ちょっとだけ話を聞く限りでもなんかいろいろ頑張ってくれてすげーなっていう、使いこなしてますなっていうのがすごいひしひしと感じた。

まず2つ、一応こんな話してもあれなんだけど、簡単にこういうのを作ろうとしたときに何にぶつかるかで2個ぐらい壁があって、

一つがローカルの壁で、もう一つがノイズリラクションの壁だったんだけど、

さっき言ったようなフローを自動化するにあたって、ローカルで動かしたときに基本的にPythonが使われるんだけど、

そのPythonコードをクロードに書いてもらってやると、基本的に我々がさっき言ったようなラウドにスイッチさせて、

あと音声の同期のために俺らはローカルで録る前に一回パンって手を大きく叩いて、

その音との波形が揃ったらこの位置で音声が同期してるっていう判定をしてるので、

それを自動で音声のパンって波形が跳ねたところを検出してもらってその0.5秒後から開始するみたいなのもできるし、

音量調整とかも全部できるんだけど、ノイズリラクションだけはやっぱあれがオーディション使ってる理由でもあったからノイズリラクションが優秀。

ホワイトノイズの部分の波形をとって、それを全体に広げて適応させるっていう。

そのホワイトノイズ部分だけを削るっていう結構高度なことを、

Pythonのフレームワークかなとかだとあったので、それを使ってうまく、

何なら自分でオーディションでやる時よりも綺麗に音消えてねみたいなやつが作れていたんだけれども、

一回オサムに前回共有して、ローカルで動くものを渡したんだけど、

いろいろターミナルで叩いたりとかしてめんどくさいことが起きてたんで、

やっぱこれもウェブで公開するかと思って、これが第二の壁なんだけど、

ウェブに持ってきたわけです。

ウェブに持ってくるとサーバーを契約するとかいろいろめんどくさいので、

ブラウザだけで完結して、ローカルのメモリ、パソコンのメモリだけで音声処理が完了するようにするように

仕様変更が必要で、そうなってくるとさっきのノイズリダクションのフレームが使えないんだよね。

それを言ったようなことをやるために黒戸くんとケンケンガクガク議論しまして、

最終的にこのスペック、今ねまだ形跡が残ってるんだけど、

このスペクトル原産っていう仕組みでノイズ状況をやると、

めちゃいい感じに撮れる。

あれ?スペクトル原産って?

オーディションのロジックを伝えてそれを実装してもらうっていう、

アドビオオーディションを作るみたいなことをやったんだ。

これがそれなのか知らないけど。

なんかこれあれだわ。スペクトル原産って音楽のレコーディングとかで、

たまに効く。

そうなんだ。確かに調べるとファンやヒスノイズなどの定常的な雑音に効果的で、

処理速度が速いというのが特徴ですと書いてある。

まさにこれをやりたかった。

要はボー音とかキーン音とかファンの音とかがやっぱりどうしてもマイクで拾っちゃってるから、

それをちっちゃくしたい。

なくしたい。

のでいろいろFFTベースとかNLMEANSとかいろんなやり方がノイズ状況に関しては手法があるらしいんですけど、

その選択肢もまだ一応残ってるんだけど、この推奨って書いてあるスペクトル原産っていうのを押すと、

これノイズのリダクションの強さももちろんバーで選べるんだけど、

この辺がローカル処理だけで。

ただその環境自体はウェブに上がっているので、

このサイトを開くと、

オサムは何をインストールする必要もなく、

Chromeだけでこれを使えるという非常に素晴らしいサービスになっておりまして、

BGMとかエンドシーンとかもファイルをローカルで選択してもいいし、

毎回毎回編集の時にこのBGMをここにドラッグ&ドロップでアップロードするのがめんどくさいので、

すでにGitHubに上げておりまして、音声を。

GitHubのURLをここに入れておくとURLは自動で書きが続く限りだけど、

保存しておいてくれて二度入力する必要がないと。

なんか今俺たちの収録しているリバーサイドとかもさ、

ノイズ処理とか話しているとこだけとかを抽出はできるけど、

そういうバックグラウンドミュージックつけるとか、

CTAっぽいの終わりにつけるみたいなのがないから、

あと日本語の処理若干弱いというのがあるので、

この痒いところに手が届く。

実際いろんなポッドキャスト、

多分これは日本でも海外でも、

ただ二人が喋ってるんだけど撮って出すみたいな人いないからさ、

BGMつけたりCTA置いたり途中でアド挟んだりとか、

そういうのができるのはこれ素晴らしいですね。

確かにアド挟める機能がいるんで海外で公開しようかね。

めっちゃいい知念があると思うけど。

でもあれってどうなんだろう?

SpotifyとかApple Musicとかあっち側でやってるのかな?

基本そうな気はするんだよね。

あとネットワークだったらそうだと思うんだよね。

Spotifyのネットワークに乗っかってる。

ただいわゆるYouTubeの案件動画みたいに自社で、

自社でというか自分たちの番組で普通に案件もらって、

解説してみたいなリビルドFMがやってるような、

ああいう感じは自分で音声を挿入しなきゃいけないので、

それは話も読み込めるから今はAIが。

話の区切りがいいところこの辺って勝手に推定してもらって、

そこでカットしてアドを挿入してもらって戻ってくるみたいな。

自動化はできなくなさそう。

ちなみに今たくまが作ってくれたこれで言うと、

ワークフローとしては我々がこれで収録した音源をローデータで、

そのままペッて上げたら処理が走って、

最終的には自動でエクスポートされるみたいなのが、

もうワンストップでできる感じでやってます。

お知らせのとおりでございます。

AI技術の進化と仕事への影響

名前がスペクトラトレックっていう名前をつけたんだけど、

バーセルに上がってまして、

バーセルっていうのは5年遅れくらいで気づいたんだけど、

神サービスっすね。

5年前からあったの?

5年は言い過ぎかも。

でもTwitterXでいろいろ情報を遊んでると、

2020何年とか前半のツイートが読めれてくるから、

みんなもう開発者この辺からこのサービス使ってたんだと思って。

今ちょうど音声が一瞬カットされて、

中断した時にその間の部分をカットする機能が今ないんで、

それを開発しなきゃいけないんですけど、

仮に何の中断もなかったとして、

音声ファイル2人分をポンってここにアップロードすると、

いろいろ細かい設定はできるんだけど、

すでに俺らが毎回やってる設定がそのままデフォルトでなってるので、

BGMとエンドシーンの、

オサムが喋ってるやつをやった上で、

ここの処理実行っていうのを押すと、

結構ローカルで処理してるんで、

かつ1時間ぐらいの尺のファイルだから時間かかるんだけど、

20分ぐらいには、

エクスポートが完了して、

あとそれをいつも通りAnchorじゃなくて、

Spotifyクリエイターにアップロードしたら終わりという、

完璧なフローだったはずなんですが、

今の収録みたいに途中で中断が入ると、

今これがこのフローが使えないという、

サービス作りは難しいな。

収録において最大の敵は高い便ということで。

いやー、

このために高いボックス指定してるんですけど、

たまに鳴らしていらっしゃるんですよね、本当に。

なるほど。

高い業者さんは難しいですね、管理が。

ちょっとアップデートお待ちください。

はい、そういう。

音声を統計した上でGUIで、

プレミアの編集画面のシェイクバーみたいなさ、

あれを出して、

こことここぶち切ってカットするみたいなのは、

多分できるんだよね。

そこまでまだ実装してないけど。

なるほど。

あとこの無音カットっていう。

今ちょうどですね、

タクマの話を聞きながら、

オーディションの解約画面の直前まで行っているんですが、

これはじゃあ、

続行ボタンを待った方がいい。

まだ解約してないのであれば、

BGMなしで編集を終えて、

BGMだけオーディションで最後に

ポチってつけるが一番楽かもしれない。

はい。

BGMつけるだけだったら、

iMovieとかああいうのもできるからね。

そうそう。

編集が難しいだけであって。

そこに仕様を着地させたのは、

それがあってから。

オーディションをまず解約したいっていうのが、

最上の目的で。

BGMつけるだけだったら、

別にいかようにも、

それこそオーダーシティとか無料のソフトとかあるけど、

ああいうのでも何でもいけるだろうなと思ったんで。

そんなに編集難しくないじゃん。

うん。

なのでオーディションを解約していただいても

大丈夫です。

おお、なるほど。

そこは自信を持って。

今、Adobeグロいな。

途中解約、年間プラン月払いにしたものを

解約しようとすると、

医薬金発生するっぽくて。

それの回避方法は後で教えるね。

すごいじゃないですか。

俺がチャットGPTみたいになってきた。

俺も解約するときにそれを見て、

オーディション、

たまたま大丈夫な期間だったから

普通に解約できたんだけど、

その解約どうせ調べるときに

みんなその罠にはまってて、

年間契約の月払い、額払いだと

めっちゃ医薬金発生するっていうのに

言われてて、

推奨はしないけど、

一応それの回避方法があるというのを

記事を見つけたんで、

後で送っておきます。

ありがとうございます。

本当に良くないよね、アドビー。

クソすぎる。

ちなみにこのスペクトラートレック君は、

最初、

クロードってUIに弱いので、

クソみたいなUIにしてたんですけど、

公開時点では。

せっかく使うなら

かっこいいやつにしたいなと思って、

一応調べた感じ、

デザインフレームワークじゃなくて、

モジュールじゃなくて、

いや、忘れちった。

各企業がそのデザインの

いろんなトンマナを

ファイルとしてまとめてるみたいなやつが

公開してるみたいなのがあって、

例えばGoogleとか、それこそアドビーとか、

あとバーセルもあったし、

みたいな、それに完全に違い。

あとセールスフォンスもあったかな。

その辺のやつを各社有名企業で

全部調べさせて、

それを一個一個ワイヤー的に、

ワイヤーというか目的に

HTMLだけ側を

クロードコードに作らせて、

一番気に入ったのが、

これが何の元だったか忘れたけど、

これGoogleかな?

を元にデザインを反映させたのが、

今のこの見た目になってて、

割と洗練された感じになったなと。

めっちゃ思った。

すごい、

何に近い?

今のリバーサイドとかに結構近いかな。

確かにリバーサイドのデザイン

パクってっていうのがあった。

パクってっていうのも問題なんだけど。

へー、

すごい色々、

自由に調整できて。

これ何回か動かしたけど、

安定して動いてたんで、

多分今回も大丈夫。

あと色々設定を変えて、

ノイズリダクションをこうしたらどうなるのかなって

やった時に、

1時間の音声○○を毎回編集すると

毎回時間かかって、

3種類試すのに、

出力まで1時間かかるみたいになっちゃうんで、

ショートプレビュー機能というものも付けておりまして、

1時間くらいだけの尺の音声を先に出力してくれるから、

すぐにこれを完了するし、

それによって音声がどれくらい変わるのか、

ノイズのリダクション外がどう変わるのかみたいなのを

短く確認できるという

素晴らしい機能も開発しまして。

賢い。

さすがです。

いやー、

素晴らしい時代だなと思いますね、

本当に。

オーディションの習得するより

自分で開発した方が早かったもん。

この無音カット機能とかも最初に

オーディションで結局

やれるんだけどやると

めっちゃみんな2人とも早口になっちゃうみたいな

適切な設定の方法がずっと分からなかったんだけど、

これは

今実装されてるやつだと

めっちゃいい感じにカットされるんで。

ああいうソフトウェアイズデッドの

終焉みたいなのと近い話になるけど、

いろんな

成熟したツールが

どういうユースケースにも対応として

機能を盛り盛りにしていく

アップセルをかけていく

プランが単価が上がっていく

どうせ使わない機能はほとんどみたいな

になっていくときに

自分で

必要な機能だけ開発できるみたいな

こういうのって

本当に脅威なんだろうなって

非常に思いました。

サースウィズデッドって言われる

サースウィズデッドはまた別で話すか

言われてるけど

大半はそんなにデッドはしないけど

そういう本当に

部分的にアップセルが消えるとか

もう今は自分がまさに

やったことの一つだし

なんとなく使ってるユーザー

みたいなのが全部消えていく

のだろうかどうだろうか

クロードコードを使いこなすの

結構大変だったぞっていう側面もあります

マジでエンジニアやってる

使いたいのがプロダクトなのか

その一部の機能なのかっていうのは

結構大きい違いだよね

機能は作れるというか

プロダクトとして

複数の機能が絡み合って

結果としてそういう

機能の集合体が必要だよね

ってのは難しいけど

今回は機能がちょっと

2、3必要だよねぐらいって

単位としてはプロダクトよりも

機能組みたいな感じですもんね

これはあれですか

ちなみに将来的には公開したい

してもいいんだけどね

セキュリティリスクとか一切ない

サーバーサイドを使えば簡単だったんだけど

サーバーサイドを使わないで

ブラウザ完結にした理由は

本種運用セキュリティリスクとか

考えたくなかったから

フロントだけでごく完結するっていう

ものを作りたくて作ったので

今公開しても多分大丈夫なんだけど

海外のやつに目つけられたら

怖いなぐらいの感じなんで

多分大丈夫だとは思うかな

何も繋がってないからさ

個人情報も

俺の情報も一切入ってない状態

まあぶっ壊して

何か損害を与えることは不可能なんだよね

そのコストをめっちゃかけるとかも

不可能なんで

公開しよっかな

もしかしたら

この収録の収録

この

オートキャストの

詳細欄にリンクがあるかもしれないし

ないかもしれないです

なかったら指してもらって

でも置いておきたいですね

見せたいこれは

自慢したい

いやでも物作るっていうの

本当に楽しいですね

どうぞ同じこと言おうと思いました

物作りは楽しいっていうのを

再実感できる

この時代は

俺らはマーケットとか色々やったけど

開発側の知識もそれなりにはあってみたいな

ただコード書くのはだるいよねみたいな感じだった

人間たちにとって

のような時代が到来しているので

これを全く知識ないところから作るのは

多分無理だったと思うんだよね

サーバー側の知識とか

フロントの知識とか

聞いたら黒田答えてくれるけど

こっちで枠組みを指定しなきゃいけないので

じゃあさっきのセキュリティのこととか

考えたくないから

ブラウザで完結するようにしたいとか

じゃあなんでローカルで動いてたものが

ブラウザで完結すると動かなくなるのかとか

その辺を仕組みとして知っとかないと

自分たちが適切に出せないし

遠回りはできるけど

遠回りしていく中で

今クロードコードのトークンめっちゃ高いんで

一瞬で枯渇するのよね

だから

マックスプランの

超フルマックスのやつで

超遠回りでも開発はできるけど

効率的にやるんだったら

ある程度の知識が必要ということなので

その点は

多少は

社会人歴長い人間たちの方が

アドバンテージはあるよ

ね

今クロードってプラン

どうなったらいいんや

プロとマックスと

そのマックスが2段階あるみたいな感じだと思う

プロプランだったら

マジで一瞬で消える

無理

そうなんだ

俺はマックスプランの100ドルのやつ

つまり15000円ぐらいのやつだけど

これもまあまあまあ

これを作るぐらいなら全然いけるけど

これと

10個ぐらい作るぐらいだったら

クロードのマックスの100ドルプランで

どうにかなるぐらいだけど

仮にこの分析業務とか

あと最近エージェントチーム

っていうのを使えるようになって

部下を5人召喚して

そいつらに

いろんな仕事をさせ

最終的に

統括者にレビューをさせて

差し戻しもさせて

その全てが終わった

アウトプットだけを社長として見るみたいな

ムーブ化できるようになったんだけど

これまじで一瞬でトークンが溶けてって

めちゃくちゃ面白い

死ぬほどGPU使ってるんだと思う

でもそれにふさわしいだけで

アウトプットが入ってくるから

やめられないんで

なるほどね

素晴らしいですねこれ

分析業務とかやらせると結構引くほどすごい

あれを見た時に本当に

いよいよ仕事がなくなるなって

毎月言ってるけど

いよいよなくなるなって

っていうのを痛感できたかもしれない

仕様の話

仕様設計とか

なんていうんだろうな

Appleの新製品発表とPCハードウェアの進化

例えが難しいけど

フロントエンドの設計をやる人

サーバーサイドの設計する人

デザインを考える人

そもそも競合サーチする人

競合のUIデザイン

取ってくる人みたいな

そういうのをダダダって召喚して

それをガシャンって

間合ったりするといいアウトプットができる

みたいな感じ

なるほどね

俺も自分の仕事で結構

最近だとHEXっていう

リダッシュでできるほど

自然言語でできるようになるみたいな

PIツールってこと

PIでもあるし

データマートでもあるし

みたいな感じのツールがあって

それとか使って

祈ってたら分析できたみたいな

知りたい

まさにそういうの探してる

HEXってHEX?

HEX

HEX.TECH

このシャレたLPですか

HEX.TECH

このLPかっこいいね

結構いいよ

このLPかっこいいね

めっちゃモダン

海外だと結構使われてる

LOVABLEとか

NOTIONとかもゴリゴリに使ってるらしかったり

これめっちゃいいじゃん

こういうの探してたんだよねずっと

結構ね

ちゃんと自然言語でできるなっていう

ただこのHEX使っても

さっきの分析とかさ

要はデータが

データの使用を理解できてないと祈れない

というか

なんていうか

あるツールの機能

フリーミアムで使えるSaaSプロダクトがあったとして

それが課金しているユーザーが

無課金時に使っていたデータと

一生無課金の人たちが

その機能をどういう差分で使っているか

みたいなのを見ると

何がアハモーメントになるか

なんとなく分かる

とかっていう分析をしたときに

とんでもない

分析が一回出てきて

なんじゃこりゃと思ったら

セールスチームが

有料前提で

3か月で無償トライアルみたいなのを出していたから

有料化することを

活躍された未来の中で使っている機能を

無課金時の挙動として出てきちゃってるみたいな

めっちゃ分かる

似たようなことが

私もクライアントになりました

セールスフォースのデータが

汚すぎる問題みたいなのがめっちゃある

それに

セールスフォースは本当に

8年ぶりぐらいに使ってるんだけど

残りの収録時間じゃ文化が足りないぐらい

言いたいことがたくさん

分析の話をしてもいいかも

あるんだけど

データの理解をしてもらわないと

正しい分析結果が返ってこない

ゼロから作るのは簡単になりました

一定の規模のチームでも

分析だとか

昔ほどのフォローアップコストが

かからなくなりました

とはゆえ

仕様とルールを知らないと

そこはAIで保管できないから

キャッチアップするような

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

technotreck.fm

感想

サマリー

目次

総スター数

コメント

感想を書く