よろしくお願いします。
Osamuです。 Takumaです。
TECHNOTREK.fmは、ITフリーランスで海外MBA留学中のOsamuと、同じくITフリーランスのTakumaが、ガジェット、仕事、暮らしについて話をするPodcastです。
久しぶりの収録ですね。
長らくご無沙汰しておりました。
リアルリスナーの皆様から、更新はまだですか?と疲れることが増えてきた頃には、そろそろちゃんと撮らなきゃ。
そうなの?
リアルリスナーの皆様から。
1ヶ月ぶりだわ。
収録?
1ヶ月ぶりだ。
本当だ、前回のショーの後がちょうど1ヶ月前。
そう、1月26日で、その後、俺が日本に出張で行き、その出張で大風邪を持って帰ってきてもらい、持って帰ってきてしまい。
大丈夫?
そう、リスクにリスクを。
インフルエンザとかじゃなかったの?
分かんねえ。
長いってことはインフルエンザの可能性高いけど、今めちゃくちゃ流行ってて。
第2波来てます今。
インフルエンザ、A型、B型っていう概念はすごい久しぶりに見た。
クライアントのスラックでもみんなバタバタとインフルエンザです、インフルエンザです、みたいになって倒れていってて。
誰が生き残れるかゲーム。リモート組だけみんなピンピンしてるね。
不幸中の災害としては、こっちで俺だけ体調崩してたまに会う人とかもいるわけだけど、その人たちに全く映ってないから。
それ良かったね。
インフルっていうほどじゃないのかもしれないけど、俺だけ熱は出るわ。
咳しすぎて、まだ治ってないんだけど、咳で寝れないんですよね。
マジか。
しんどいわ。
ちなみにちょっと余談だけど、オーラリングを4に新調したんですよ。
睡眠トラックも今年からまだ始めようって思ってるんだけど、顕著に睡眠質が下がっていて、風邪なんて引くもんじゃないなと。
咳で寝れないっていう。
睡眠障害に泣きっ面に蜂の。
ね。
聞いているみなさんもご自愛頂けたらと。
健康は大事で。
今日はそんな俺が寝込んでいる中、たくまが素晴らしい自動化を組み上げてくれたところで、本当にたくまはこういうのマジですごいなと思ったんだけど、その話はちょっと触れられたら幸いですわ。
確かにね、何をやったかという話で言うと、
ポッドキャスト我々収録する度に1回1回交代交代で順番を担当性にして編集をしてるんですよね。
編集は大したことないんだけど、お互いにローカルで録った音声をシンクさせて同期させて、音量のラウドネスってやつとか、あとノーマライズしてアドリミットかけて、
ノイズリラクションかけて、最後にエンドクレジット入れてBGMつけて納品みたいなのをアドビのオーディションっていう付き合いさん予選するよね。
単体契約だと。
のアプリを使ってやっているんだけれども、それをワンクリックで終わるようにしたという。
もう素晴らしい。
できるんだっていうね。
素晴らしすぎる。
そもそも。
ちなみにこれクリエイティブクラウドプロにすると今月曜日1万もするんだね。
そうだよ、ファイアフライだっけ、アドビのAIで勝手にクリエイティブクラウドプロっていうのが勝手にできて、勝手にそっちのプラになってみんな値上がりしてバカみたいなビジネスをアドビ君はやってるんですけれども、
俺はアドビ勢が嫌いなので。
いやーまあね。
唯一のアドビがこれだったのがオーディションだったんだけど、こいつ消せねえかと思って。
最近ね、いろいろちょっとこれ多分もうエピソード話せないけど、確定申告用のアプリ作ったり、
あと仕事のスマークで、
フリーのやつね、フリーもアップするしないと請求書の自動作成の予約の上限数っていう謎のリミットがプラについてかけられてて、
それだけのために倍払うのはって思ってクロードコードに作らせて、何なく今今月の請求書から上限を超えて発行されてるんですけれども、
そういうのとか、いろいろこうなんかこれ絶対作れるよなって頭の中でこうコードは書けないけど、
これのAPI繋いでこうやったらいけるよねっていうものはポンって作れるから、それを多分10個ぐらい今月作ってるんだけど、
の中の一つの中で結構の自信作がこのPodcastの自動編集のやつで。
結構頑張ったねこれ。
いやなんか、今バージョン3ぐらい、メジャーなバージョンで言うとローカルのがあって、
ちょっとだけ話を聞く限りでもなんかいろいろ頑張ってくれてすげーなっていう、使いこなしてますなっていうのがすごいひしひしと感じた。
まず2つ、一応こんな話してもあれなんだけど、簡単にこういうのを作ろうとしたときに何にぶつかるかで2個ぐらい壁があって、
一つがローカルの壁で、もう一つがノイズリラクションの壁だったんだけど、
さっき言ったようなフローを自動化するにあたって、ローカルで動かしたときに基本的にPythonが使われるんだけど、
そのPythonコードをクロードに書いてもらってやると、基本的に我々がさっき言ったようなラウドにスイッチさせて、
あと音声の同期のために俺らはローカルで録る前に一回パンって手を大きく叩いて、
その音との波形が揃ったらこの位置で音声が同期してるっていう判定をしてるので、
それを自動で音声のパンって波形が跳ねたところを検出してもらってその0.5秒後から開始するみたいなのもできるし、
音量調整とかも全部できるんだけど、ノイズリラクションだけはやっぱあれがオーディション使ってる理由でもあったからノイズリラクションが優秀。
ホワイトノイズの部分の波形をとって、それを全体に広げて適応させるっていう。
そのホワイトノイズ部分だけを削るっていう結構高度なことを、
Pythonのフレームワークかなとかだとあったので、それを使ってうまく、
何なら自分でオーディションでやる時よりも綺麗に音消えてねみたいなやつが作れていたんだけれども、
一回オサムに前回共有して、ローカルで動くものを渡したんだけど、
いろいろターミナルで叩いたりとかしてめんどくさいことが起きてたんで、
やっぱこれもウェブで公開するかと思って、これが第二の壁なんだけど、
ウェブに持ってきたわけです。
ウェブに持ってくるとサーバーを契約するとかいろいろめんどくさいので、
ブラウザだけで完結して、ローカルのメモリ、パソコンのメモリだけで音声処理が完了するようにするように
仕様変更が必要で、そうなってくるとさっきのノイズリダクションのフレームが使えないんだよね。
それを言ったようなことをやるために黒戸くんとケンケンガクガク議論しまして、
最終的にこのスペック、今ねまだ形跡が残ってるんだけど、
このスペクトル原産っていう仕組みでノイズ状況をやると、
めちゃいい感じに撮れる。
あれ?スペクトル原産って?
オーディションのロジックを伝えてそれを実装してもらうっていう、
アドビオオーディションを作るみたいなことをやったんだ。
これがそれなのか知らないけど。
なんかこれあれだわ。スペクトル原産って音楽のレコーディングとかで、
たまに効く。
そうなんだ。確かに調べるとファンやヒスノイズなどの定常的な雑音に効果的で、
処理速度が速いというのが特徴ですと書いてある。
まさにこれをやりたかった。
要はボー音とかキーン音とかファンの音とかがやっぱりどうしてもマイクで拾っちゃってるから、
それをちっちゃくしたい。
なくしたい。
のでいろいろFFTベースとかNLMEANSとかいろんなやり方がノイズ状況に関しては手法があるらしいんですけど、
その選択肢もまだ一応残ってるんだけど、この推奨って書いてあるスペクトル原産っていうのを押すと、
これノイズのリダクションの強さももちろんバーで選べるんだけど、
この辺がローカル処理だけで。
ただその環境自体はウェブに上がっているので、
このサイトを開くと、
オサムは何をインストールする必要もなく、
Chromeだけでこれを使えるという非常に素晴らしいサービスになっておりまして、
BGMとかエンドシーンとかもファイルをローカルで選択してもいいし、
毎回毎回編集の時にこのBGMをここにドラッグ&ドロップでアップロードするのがめんどくさいので、
すでにGitHubに上げておりまして、音声を。
GitHubのURLをここに入れておくとURLは自動で書きが続く限りだけど、
保存しておいてくれて二度入力する必要がないと。
なんか今俺たちの収録しているリバーサイドとかもさ、
ノイズ処理とか話しているとこだけとかを抽出はできるけど、
そういうバックグラウンドミュージックつけるとか、
CTAっぽいの終わりにつけるみたいなのがないから、
あと日本語の処理若干弱いというのがあるので、
この痒いところに手が届く。
実際いろんなポッドキャスト、
多分これは日本でも海外でも、
ただ二人が喋ってるんだけど撮って出すみたいな人いないからさ、
BGMつけたりCTA置いたり途中でアド挟んだりとか、
そういうのができるのはこれ素晴らしいですね。
確かにアド挟める機能がいるんで海外で公開しようかね。
めっちゃいい知念があると思うけど。
でもあれってどうなんだろう?
SpotifyとかApple Musicとかあっち側でやってるのかな?
基本そうな気はするんだよね。
あとネットワークだったらそうだと思うんだよね。
Spotifyのネットワークに乗っかってる。
ただいわゆるYouTubeの案件動画みたいに自社で、
自社でというか自分たちの番組で普通に案件もらって、
解説してみたいなリビルドFMがやってるような、
ああいう感じは自分で音声を挿入しなきゃいけないので、
それは話も読み込めるから今はAIが。
話の区切りがいいところこの辺って勝手に推定してもらって、
そこでカットしてアドを挿入してもらって戻ってくるみたいな。
自動化はできなくなさそう。
ちなみに今たくまが作ってくれたこれで言うと、
ワークフローとしては我々がこれで収録した音源をローデータで、
そのままペッて上げたら処理が走って、
最終的には自動でエクスポートされるみたいなのが、
もうワンストップでできる感じでやってます。
お知らせのとおりでございます。