旧Anchor超え？ポッドキャスト自作AIツールの記録。録音・編集・構成まで！Google AI Studioでバイブコーディング

自作ツールの概要

こんにちは、声に偏る世界線。今回は、AIで作ったポッドキャスト用のツール、こちらについて触れようと思います。Google AI Studioで作った自作ツールになります。

前にも触れたことあると思うけど、今回ね、よりちょっと、うんと、もう具体的に使えるんじゃないかなみたいなもの。はい、作りました。

で、これ作った後に、今、頭にこの文章じゃない、あの音声追加してるんだけど、6月のね、26日に一旦作ってツイートしたりしたんだけど、あのスクショとかもそれ載せてあるので、概要欄から飛んでもらえると。

で、ただね、なんかね、その、この後に今音声流すんだけど、その当時の26日の時の、作ったばっかの時、ツイートの直後とかその最中に録音したくらいかな。

はい、なんだけど、その時に実装無理かなと思っていたものもできて、なんかね、より今は便利になっています。

音声、何個もの音声を録音して分割したものを配置して、並び替えとかできるようにしたんだけど、なんかね、その各音声クリップの中の分割とかトリミングができないかなと思ったんだけど、そんなことありませんでした。

なので、現時点はそこらへんも対応しているので、はい、この辺りも随時スレッドにくっつける感じで、こんな感じにできたとかってツイートしたいので、併せてチェックしてもらえたらと思います。

はい、ということで、当時作ったタイミングで、まあ記録として残しておこうと思った内容、この後話しているので、そちらチェックしてみてください。

音声編集機能の特徴

今回はGoogle AI Studioでポッドキャスト向けのツールをまた再び作っているという話で、はい、これがなかなかいい感じなので、ちょっと記録として残しておきたいと思います。

結構ね、作れるね。ツイートとかで触れたのだと、旧Anchor、Spotify for Creatorsの前身にあたる旧Anchorの時の

音声の編集というか、エピソードの構成を決定するような、そういう感じにちょっと近い感じで作れました。

どういうことかというと、音声ファイル、例えば4種類の音声ファイル、例えばタイトルと本編2つに分割したものとエンディングみたいに音声があったとして、

その間にSEとかを挟み込んだりとか、ドラッグ&ドロップで並び替えたりとか、そういうことができました。

これも何回も触れているけど、謎に収益化機能が使えるようになった時期があって、日本は大障害となっているから、使えたとしてもお金がもらえないというのは分かった上で、でも機能を試してみたいということで、広告を挟む機能とかも実際に使ったりしていました。

このドラッグして、例えば6個のブロックがあったとして、音声4つの、いすい1個と音声広告みたいな感じだったとしたら、これをどう配置するかみたいなのを自分で決められるんだよね。

それこそ例えばYouTubeとかだと、収益化している人だったら分かると思うけど、広告をどこに入れるか。

最近は手動じゃなくて自動で広告を入れるっていうところが何か使用変更になって、より収益が上がりやすい形とかってそういう話になっているのかね。

YouTube側が言っている話だかどうかは分からないけど。

今マニュアルでやってた頃って、続きが見たいと思う瞬間にあえて入れるみたいな手法とかってあったりすると思います。

それが裏面に出るケースもあると思うけど。

例えばドッキリで3、2、1でそのドッキリの瞬間みたいな状態でそこでCMを挟むとか。

結構嫌な感じだけどね。

要はそういう感じのこともアンカーとかだとできました。

音声側を分割しなきゃいけないからそのタイミングに合わせてっていう手間とかあったりはするけど。

そこまでの音声の分割とかまでできないんだけどトリミングとか。

できないけどその並び順を変えたりってとこまではできるようにしたので。

なかなか悪くないんじゃないかなっていう感じです。

あとはびっくりしたことにね、ノイキャンとかコンプレッサーとかあとはノイズゲートとかそこらへんの機能も付けられました。

さらにはラウドネスノーマライゼーション。

この辺りも機能として付けられて。

なんか前にやろうとした時にうまくいかなかったんだけどなんかスルーされたのかな。

本格的にやらないとできませんみたいなこと言われたような記憶があったんだけど。

今回やったら普通にできました。

ちゃんと機能もかかっています。

なんかそのうまくかからないとかそういうところは抜きとしてとりあえず効果自体得られます。

単純にエキスパンダーとか分かりやすいと思うけど。

エキスパンダーノイズゲート2つ分かれたかな。

要は余計な環境をカットするとかっていうのはこの敷地に値するところ。

そのスライダーにしてあるんだけど。

それをいじればその音量未満のものは全部カットするとかそんなのもちゃんと反映していました。

あとは当然BGMを裏で流すとかそういうのも入れたし。

AIによる音声制作の効率化

あとはこれはポッドキャストならだでどうせだったらこうしたいって思うもの。

ちょっと話前後してしまうけど。

自分で音声収録する時っていうのもそうだけど。

最近ってAIのボイスクローンで音を読み上げさせて細々と分割した音声ファイルをオーディション上で並べ替えてみたいなことをしたりしています。

そこに自分でリアルにしゃべる声も混ぜたりとかいろんなやり方をしてるんだけど。

それをやるとね結局当たり前なんだけど並べてってなおかつBGMを設置して。

あとはなんか場面の切り替えだったDJのスクラッチみたいなのを入れてとかそんなことするわけだよね。

まあそれは当たり前なんだけど。

これ自体が手間だなってのもあるし。

これここに時間かける意味ぶっちゃけないなっていうところがものすごく大きくて。

やってて楽しいとかもあるから別にそういう点では構わないんだけど。

ぶっちゃけ全然再生されるわけでもないしそこでそんなところに時間を使うのも馬鹿馬鹿しい。

っていうのも含めてあとは全く別のベクトルでAI自体に興味が湧いている最中なので。

じゃあそっちを優先的に効率化する方に頭を持っていこうっていうところを今回試しました。

これをやるだけでDNA割り切りもできるし

なおかつその並べ替えだってドラッグ&ドロップで完結するわけだし

BGMだってアップロードするって形を取ってるんだけどアップロードするだけだし。

でねもう一個Adobe Auditionとか使っててだるいのが

例えばさBGMの最初のイントロ数秒間はボリュームを大きくしておいて徐々に下がっていってみたいなことってやったりするじゃん。

あと終わりの時もさ逆に最後。

例えば個人的にはさよならって言ったら終わるのが多いんだけど

さよならって言ったときは急にガッと持ち上がって最後フェードアウトみたいな感じの

最近ちょっと入れたりしてましたマニュアルで。

そうでねなんかそれがね地味にちょっとだるいんだよね結構めんどくさい。

特に終わりの位置をさこのタイムラインに置いてあるクリップ音声クリップを合わせてBGMのやつを合わせて

で最後ボリュームが上がるところをペンツールみたいので打ってみたいなそんな感じのことをするわけだけど

これがね地味にだるい。

ちょっと長ささ音声側をもし変えたとしたらここやっぱ邪魔だなと思ってカットしたりとかして

そうすると今度BGMの後ろの位置合わせなきゃいけないわけじゃんドラッグして

でドラッグしたらそのボリュームその上がるタイミングとかもずれちゃったりとかいろんなことあって

とにかく全体的に手間で。

でなおかついちいちさ一回そのオーディションで編集とか始めちゃうと音質について気にし始めちゃうじゃない少なからず

例えばフィラーがどうこうとかもそうだし音質自体も

ちょっとこれ環境音いっぱい張りすぎだなってもっと気を付けなきゃとか思いながら

一応テンプレートとしてある

トラックに対してかけるエフェクト群っていうのは作ってあるわけよ

これとこれとこれとこれをかけるっていうもう決めたテンプレ化したものが並んでるんだけど

ここから微調整とか始めちゃったりして

もうそんなことやったって大差ないのに大差ないっていうのは実際差はあるんだけど

そんなとここだわったってささっき言ったみたいにさそんな再生されるわけでもないのにっていう話じゃん

なので今回のはさっきの並び替えができるとかBGMも入れられてるのと

プラスBGMに関してもね指示出したら簡単に全部作ってくれるんだけど

その冒頭の何秒間はボリュームでかくしておいて

そこからぐっと下がってみたいなそういうのもできるようにしました

デフォで数値は全部こっちから指示して決めておいて

できることがイントロの最初ボリューム何デシブル上げとくか

何秒後に下がるかみたいのがまずできます

終わりに関しても喋り終わった最後ボイス音声側が終了した時点から

ぐいっと音量上がって何秒間継続してから終了するみたいなのもできるようにしました

収録とアップロード

なおかつ音声ファイル音声がイントロBGMに対して音声が開始するタイミングの遅延

頭に何秒間を取るかっていうのもこれも設定できるようにしました

デフォでこれこのぐらいでいいかなと思うのは当然指定してあるんだけど

全部スライダーでいじれるようにしてあります

これだけ考えてもね結構いい

ここだけ考えてもいいわめっちゃ楽だわ

AIで楽にできるものはどんどんしていきたいなっていうのプラス

本当にこれどっちにするかなんだけど楽しむっていうところも含めて

Adobe AuditionとかPremiere Proを触ってっていうのが楽しさの部分も少なからずあるので

それはもう完全に作業として捉えてなければないでいいものっていう方向に持ってかないと

個人的に今の状況においては無駄しかないかなっていう

今の形でいいんじゃないかなと思いつつやってる最中な感じではあります

ここからって機能を盛り込んでいったらいくらでもつけていけちゃうんだけど

1個肝になるものとしては現時点では音声ファイルをアップロードするっていう形をとっています

音声にあたる本当に声の喋ってるデータプラスSEとかもアップロードする感じだし

使いたいんであればBGMも普通にアップロードする感じだし

でも音声に関しては収録できたらいいじゃん

過去に全く別のものでGoogle AI Studioで収録用のツールも作りました

収録音声の収録この声に関わる世界線で触れたね前に

収録プラス収録完了時点で全部文字起こしをして

あとは要約とタイムスタンプ作ったりとかボタンを押すといろいろ機能を発動するようにしたんだけど

ブログの記事マークダウン形式でブログの記事を出力するとか

ハッシュタグの広報を出すとかタイトルワンを10個出すとかサムネイルを作るとか

収録してその後に分析家庭に始まってみたいな感じのそういうものも作ってあります

これを2つを合算させるってなると指示自体がややこしくなるし

なんだかんだどっかでおかしくなってうまくいかなくなっちゃったりするから

ちょっと不安もあったんだけど収録のツール自体は一応試そうと思って今回つけてみました

音声編集の新しい手法

とりあえずうまくいきました

だから音声もすでに録音してあるものをアップロードするのプラスその場で収録をして

音声クリップとして並ぶので

これをさっき言ったようにドラッグ&ドロップで場所を前後入れ替えられる

本当に間にSEを挟んで場面転換みたいな感じにしたり

音声広告用のファイルを用意してそれを間に挟み込んだりそんなことができます

ある種これはダラダラ例えば20分とか話しちゃうのよりも

ちゃんと整理した構成に持っていきやすいツールにもなっているかなっていうのがあります

これどういうことかというとこのなんか別件で触れたけど

例えばツイッターに投稿することはできるんだけど連続で何回も投稿することはできるけど

記事を1個長い記事を書くことはできないって人って結構いると思います

個人的にもそうなんだけど

でそれを解消するためのサービスツールとかってのも開発されていて

文は書けぬがつぶやけるっていうサービスがあって

この140文字ツイッターになぞられて140文字ずつかな

枠が用意されていてそこに文章を打てるようになっています

これがいっぱい並んでるので並んでるんだか1個埋めたら次のボックス表示して

追加みたいにしてやっていくのか分からないけどとりあえず単文ずつ積み重ねていけば

長文書けない人もツイートできるんだったら書けるでしょっていう

最後全部くっつければ長文になるわけじゃんっていうようなサービスがあって

ある種それと同じような感覚なんじゃないかなっていうのを持っています

つまりその場で録音ができるっていうことは1テーマごとに

この短時間の短い音声データとしてこの録音を繰り返す

そうすると自然にちょっと意識が働くので

この1個1個の間1個目2個目3個目4個目みたいな分割予定

意識が湧くと思うのでだからある程度テーマ絞り込んで

簡潔にしてみたいなことがやりやすくなるんじゃないかなと思います

本当にまんまさっきのツイートはできるけど文章書けないの書けないっていうのと一緒じゃん

しゃべるのに関しては俺自身は別にいくらでもしゃべられるからいいんだけど

ただ全然まともにもないさあっち行ったりこっち行ったり

なおかつあっち行ったりこっち行ったりすんのはいいんだけど

ちゃんと区切りとかメリハリをつけてっていうことができなかったりもあるので

本当は最初にテーマ全部決めてやれれば一番いいんだけど

そういう頭にも持っていきやすいか

細切れで録音してこれを並べ替えることもできるわけだし

間にSE入れるとかオーディションで細々と微妙な位置調整とか

秒単位の調整とかする必要もないじゃん

なんかちょっと違うなとかってこともないわけだから

そう考えると収録をしてよし一個終わったじゃあSEここに間に挟んで

DJのスクラッチみたいなのを入れてよしじゃあ次の話に行こうみたいな

そんなことやってるうちにパッと頭に浮かんでくるものってあるじゃん

分割していってるから

じゃあここに関係するもので今頭に浮かんだものを2つあるから

じゃあこの2つをこういう順番で収録しようかなって

1個の話でまた収録終わったら次の話ってできるから

結構整理して作りやすいっていうのもあるんじゃないかなとは思います

繰り返しになるけど本当に最初にYouTubeとかで考えたらそうだけど

まずサムネット企画から考えるみたいな話が本当に根本的なところってあるから

そういうほうがいいんだろうけど

この分割して収録するってところも含めて

自然な流れでそういう方向認識を持ってきやすいんじゃないかなっていうのも

ちょっとあるんじゃないかなって

感覚的には個人的にはあくまで雑談ベースというか

そっちをメインでやりたいっていうのがあるので

専門的にどうこうって発信するんだったら

俺はポッドキャストになってYouTubeでやるべきだと思ってるので

みたいなところです

と言いつつ今そのツールはちょっと微妙に手加えたりしてるんだけど

そうなんかね言った指示ねうまいことやってくんなくて

またわけのわかんねえ状態にされて

今イラッとしてる最中なんだけど

AI技術の活用

そうでなんか後は本当に

今は収録録音したデータも並べられるって言ったけど

本当に最近は声に偏る世界線側だと前回

AIボイスクローンの話は触れたけど

メインのポッドキャストキックまとめのほうに関しては

結構そのAIのクローン音声を使っています

なんかイントネーションひどかったりする瞬間もあったりするんだけど

そうだからそういう意味合いで

そっちもねその細切れで録音というか読み上げがさせられるので

要は長文でやったほうがイントネーションが崩れる瞬間って

ところどころに含んでちゃったりするし

長くなるとね後半におかしくなるってことが結構あったりします

なんか暴走してんだかなんだかわかんないけど

だからあのクレジット的な概念がないので

生成に関して何回でも無限にできるわけよ

だから短文ずつ読み上げさせて

いい感じに聞こえたらそこでダウンロードして

次の先を読ませるっていうことを繰り返すことで

結構ね本当に人間っぽく作れます

最近やったキコまとめの直近でやったやつに関しては

ものすごい長文をまとめてやったから

すごいおかしくなったんだけど

これはひどいなみたいな感じであったんだけど

短文にするといい感じになって

なおかつダウンロードした複数のファイルがあるときにこそ

今回作ったツールが生きる

さっきみたいにドラッグとかで

間にSE挟んだりとかもできるわけだから

別にそんなに細切れになっている必要はないんだけど

並び替えも基本的には

音声クローンのほうで喋らせたところに関して並び替えする必要もないんだけど

細切れになっていれば

その間に例えばちょっとここ訂正だなと思ったときに

それこそこのツールだと

俺自身が生の声で収録して間に挟むこともしやすいじゃん

このツールの問題が何かあるとしたら

各音声クリップの中でカットとか分割とか

トリミングができないっていうところになります

ちゃんとした指示したらできるのかもしれないけど

ちょっと手間がかかりそうなのかなと思ったから

もうやめておいたんだけど

細切れであればあるほどに

何か訂正を加えるというときに

音声のカットとかができない分

短ければ短いほど

音声編集の技術

間にいろいろ挟んでごまかしもしやすいじゃん

並び替えることもできるだろうし

みたいなところで一応作りました

細かいところはまだ試せてないけど

本当にコンプレッサーとかノイズゲートとか

イコライザーもね

最初スリーバンドイコライザー的な感じにしたんだけど

今見てみるとね

一応スリーバンドの形式になっているんだけど

低域、中域、高域になっているんだけど

周波数もスライダーになっているので

好きな数値が指定できます

そう

波形、グラフみたいな感じで

ああいう風に曲線を描いていじれるわけじゃないから

あれだけど

だから大きく分けて

3つの周波数

周波数、周波数帯

帯域について

数値を指定した上で

原因を上げる下げる

みたいなことができるので

だからあれだよね

高域のほう通りやすく

というか下になったら

高域を持ち上げるとか

低域、こもったり聞こえるようだったら

低域とか中域をちょっと下げるとか

その周波数の数値を指定した上で

みたいなこともできます

ここまで細かいと逆にやりづらいから

ちょっともっとシンプルでいいかなと思うんだけど

ラウドネスノマライゼーションに関しても

ちょっとちゃんとここはね

本当に機能しているのかって確認が取りづらい項目なので

あれなんだけど

そんな感じになっていて

これは実用性結構高いんじゃないかなってところです

録音とテストの経緯

だから本当は今回動画で録画しながら

この画面映してやろうと思ったんだけど

ちょっと今映ってないんだけど

そう

なんかそれをさ

今言ったツールの性質上

音声ファイルのアップロードとか

自分が収録に当たって

その場で録音しなきゃいけないわけじゃん

に対して動画も同時で撮ってくって

なかなか難しいなと思って

なんていうの

そういう動画として撮るんだったらいいんだけど

音声側は音声側でツール上で

ちゃんと完成させた上で

動画の別撮りってなると結構大変じゃん

説明部分余計な説明部分

本編側本来の本物側の

音声ファイル作ろうとしている音声ファイル側には

入っちゃいけない音声とかだって生まれるわけだし

まあまあなんかそんなこともあって

そんなの考えてるぐらいだったら取り合いとっておこうってところで

今回ちょっと収録してみました

というかね今回本当は収録のテスト

単純に今オーディションで収録してるんだけど

オーディションで録音するテストと思って

ちょっとマイクのテストと思って

やってたらまあまあ

このまま話しちゃうかと思ってここまで来ちゃいました

なのでせっかくなのでこれはアップしようと思います

なんであれかな

静止画になっちゃうかもしれないけど

まあいいか

ちょっとわからない

動画にするかしないか

どっちにしても動画にしてもスポーティファー上でしか

見てはもらえないけど

ということでここに書いてある世界線

今回以上となります

こんな感じでちょっと試したこととかそういうのも含めて

情報としてシェアできればと思うので

聞きかけとか聞いてる人になるかもしれないので

今回Google AI Studio使ったので

本当に音声じゃないな

普通に高語レベルで指示をするだけで

簡単にプログラムとか作れるので

これも今回の件なんかいろいろごちゃごちゃやってさ

知識ない人が聞いたら

なんかめっちゃ難しそうなことやってるなと思うかもしれないけど

そんなことはないです本当に

こういう機能つけてくださいって言ってるだけ

微調整としてごちゃごちゃ文句言ってるだけ

なんでそんなこともできねえんだよって

言ってるっていうか俺は音声入力をするから

本当に言葉に出して言ってるんだけど

Google AI Studio

申し訳ございませんって言いながら

調整してくれて

ということで何か

参考とか

始めるきっかけとかになればと思うので

ということで今回以上となります

こんな感じで話していくのでよかったら

また聞いてください

さよなら

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

Koukichi Takahashi

自作ツールで配信したEP

音声内目次

ツールのかんじ

6月28日時点アップデート版

別の使用中ツール「音声分析＆要約タイムスタンプ＆ブログ記事生成」

サマリー

目次

スターの数

コメント

こちらもおすすめ

旧Anchor超え？ポッドキャスト自作AIツールの記録。録音・編集・構成まで！Google AI Studioでバイブコーディング

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

Koukichi Takahashi

自作ツールで配信したEP

音声内目次

ツールのかんじ

6月28日時点 アップデート版

別の使用中ツール「音声分析＆要約タイムスタンプ＆ブログ記事生成」

サマリー

目次

スターの数

コメント

こちらもおすすめ

6月28日時点アップデート版