1. 声に偏る世界線 - ポッドキャスト/音声配信界隈
  2. 旧Anchor超え?ポッドキャスト..
2025-06-28 19:40

旧Anchor超え?ポッドキャスト自作AIツールの記録。録音・編集・構成まで!Google AI Studioでバイブコーディング

この記事のURL:https://podcast.koukichi-t.com/2025/06/28/vibe-coding-ai-tool-for-podcast/

追記!続きはこちら:動画でアプリ画面収録しながら話しました

今回は、バイブコーディングの話です。Google AI Studioを使って私が作ったポッドキャスト制作ツールについて話しました。このツールは以前にも触れましたが、今回さらに具体的な機能を追加し、より実用的なものになったと感じています。

過去に作った収録&分析ツールの記事はこちら

【自作アプリで効率化】AIでリアルタイム文字起こし&分析テスト!音声収録&ポッドキャスト投稿 – Google AI Studio | 声に偏る世界線

特に、複数の音声クリップを並べ替えたり、SEを挟んだりといった旧Anchorに似た編集構成が可能です。さらに、以前は難しかったノイズキャンセリングやコンプレッサー、ラウドネスノーマライゼーションといったオーディオエフェクト機能も実装できました。

自作ツールで配信したEP

このツールを使って実際に収録した音声はメインポッドキャスト聞くまとめにて数回配信済みです。

収録音声は自作ツールの「ノイズゲート」強くかけすぎて聞きづらくなってます…w逆に言えばちゃんと機能してるってことで、すごい

870⚡️今日のトレンド&見逃し注意お得情報:イカゲーム3配信開始!は?買うともう1個ワイヤレスイヤホン貰えるキャンペーンw Amaoznセール

音声内目次

Google AI Studio製ポッドキャストツールの話 ツールのアップデートと最新情報 ツールの主な機能と編集イメージ オーディオエフェクト機能の実装 ツール開発の背景と手動編集の手間 BGMの自動ボリューム調整機能 収録機能の実装検討と過去のツール 収録機能の実装成功とファイル構成の利点 構成整理ツールとしての側面と短い収録のメリット AIボイスクローンとの連携と効率化 現在のツールの課題と小間切れ収録 今回の収録経緯とまとめ

ツールのかんじ

このツール開発の主な動機は、Adobe Auditionなどで音声編集、特にBGMのボリューム調整などを手動で行う手間を大幅に削減したいと考えたからです。BGMのイントロやアウトロのボリュームを自動調整できる機能は、編集作業を非常に楽にしてくれます。AI自体への興味もあり、効率化の方向に力を入れた結果です。

また、最新の機能として、ツール内でその場での音声収録ができるようになりました。これにより、アップロードだけでなく、短い区切りで録音してそれを並べて一つのエピソードを作るという使い方も可能です。

これは、長い文章を書くのが苦手でも短いツイートを重ねて長文にするサービスのように、構成を考えながら録音を進めやすくするというメリットがあると感じています。AIボイスクローンで生成した短い音声ファイルを繋ぎ合わせる際にも有効です。

現在のツールにはまだ、各音声クリップ内でのカットやトリミングができないという課題がありますが、短い音声で構成することで、この点を補っています。Google AI Studioは技術的な知識がなくても口語レベルで指示できるので、楽しみながら開発を進めていますが、たまに指示通りに動かなくてイライラすることもありますね(笑)。

今回の情報が、ポッドキャスト制作やAIツール開発に興味のある誰かの参考や、何かを始めるきっかけになれば嬉しいです。

6月28日時点 アップデート版

その後、各音声クリップのトリミングや分割などの機能も実装することができました。

何か指示をすると別の場所が壊れるみたいな繰り返しで、UIとかもガラッと変えられてしまうため統一性がないですが、とりあえず使えるので良しとしよう。

というか、この記事を書いている現時点では、イントロのブーストとかがおかしくなっていたり・・・w

別の使用中ツール「音声分析&要約タイムスタンプ&ブログ記事生成」

こちらは現在複数のポッドキャストで毎回使用しているツールです。これがあるだけでめっちゃ便利。LISTEN対策にハッシュタグ提案なども。サムネイルとかは微妙w

#GoogleAIStudio #AIツール #ポッドキャスト #AIDIY #バイブコーディング #音声編集 #ポッドキャスター

※当サイトではGoogle Adsense/Amazonアソシエイト他、各種ASPによるアフィリエイト広告リンクを含む場合があります。

サマリー

ポッドキャスト制作において、Google AI Studioを用いた自作ツールの進化について解説されています。このツールは音声の録音や編集、効果音の挿入を簡単に行う機能を備え、収益化や音質向上に寄与する各種エフェクトが実装されています。ポッドキャスト制作の効率化に関して、Google AI Studioを利用した収録から編集までの新しいアプローチが紹介されています。音声ファイルのアップロードや自動文字起こしなど、様々な機能を活用し、作業の楽しさと効率を両立させる方法について語られています。また、ポッドキャスト制作におけるGoogle AI Studioの活用法についても触れられ、音声編集や録音の技術的な試みが紹介されています。特に、音声の周波数調整やノーマライゼーションの実用性に焦点が当てられています。

自作ツールの概要
こんにちは、声に偏る世界線。今回は、AIで作ったポッドキャスト用のツール、こちらについて触れようと思います。Google AI Studioで作った自作ツールになります。
前にも触れたことあると思うけど、今回ね、よりちょっと、うんと、もう具体的に使えるんじゃないかなみたいなもの。はい、作りました。
で、これ作った後に、今、頭にこの文章じゃない、あの音声追加してるんだけど、6月のね、26日に一旦作ってツイートしたりしたんだけど、あのスクショとかもそれ載せてあるので、概要欄から飛んでもらえると。
で、ただね、なんかね、その、この後に今音声流すんだけど、その当時の26日の時の、作ったばっかの時、ツイートの直後とかその最中に録音したくらいかな。
はい、なんだけど、その時に実装無理かなと思っていたものもできて、なんかね、より今は便利になっています。
音声、何個もの音声を録音して分割したものを配置して、並び替えとかできるようにしたんだけど、なんかね、その各音声クリップの中の分割とかトリミングができないかなと思ったんだけど、そんなことありませんでした。
なので、現時点はそこらへんも対応しているので、はい、この辺りも随時スレッドにくっつける感じで、こんな感じにできたとかってツイートしたいので、併せてチェックしてもらえたらと思います。
はい、ということで、当時作ったタイミングで、まあ記録として残しておこうと思った内容、この後話しているので、そちらチェックしてみてください。
今回はGoogle AI Studioでポッドキャスト向けのツールをまた再び作っているという話で、はい、これがなかなかいい感じなので、ちょっと記録として残しておきたいと思います。
結構ね、作れるね。ツイートとかで触れたのだと、旧Anchor、Spotify for Creatorsの前身にあたる旧Anchorの時の
音声の編集というか、エピソードの構成を決定するような、そういう感じにちょっと近い感じで作れました。
どういうことかというと、音声ファイル、例えば4種類の音声ファイル、例えばタイトルと本編2つに分割したものとエンディングみたいに音声があったとして、
その間にSEとかを挟み込んだりとか、ドラッグ&ドロップで並び替えたりとか、そういうことができました。
これも何回も触れているけど、謎に収益化機能が使えるようになった時期があって、日本は大障害となっているから、使えたとしてもお金がもらえないというのは分かった上で、でも機能を試してみたいということで、広告を挟む機能とかも実際に使ったりしていました。
このドラッグして、例えば6個のブロックがあったとして、音声4つの、いすい1個と音声広告みたいな感じだったとしたら、これをどう配置するかみたいなのを自分で決められるんだよね。
それこそ例えばYouTubeとかだと、収益化している人だったら分かると思うけど、広告をどこに入れるか。
最近は手動じゃなくて自動で広告を入れるっていうところが何か使用変更になって、より収益が上がりやすい形とかってそういう話になっているのかね。
YouTube側が言っている話だかどうかは分からないけど。
今マニュアルでやってた頃って、続きが見たいと思う瞬間にあえて入れるみたいな手法とかってあったりすると思います。
それが裏面に出るケースもあると思うけど。
例えばドッキリで3、2、1でそのドッキリの瞬間みたいな状態でそこでCMを挟むとか。
結構嫌な感じだけどね。
要はそういう感じのこともアンカーとかだとできました。
音声側を分割しなきゃいけないからそのタイミングに合わせてっていう手間とかあったりはするけど。
そこまでの音声の分割とかまでできないんだけどトリミングとか。
できないけどその並び順を変えたりってとこまではできるようにしたので。
なかなか悪くないんじゃないかなっていう感じです。
あとはびっくりしたことにね、ノイキャンとかコンプレッサーとかあとはノイズゲートとかそこらへんの機能も付けられました。
さらにはラウドネスノーマライゼーション。
この辺りも機能として付けられて。
なんか前にやろうとした時にうまくいかなかったんだけどなんかスルーされたのかな。
本格的にやらないとできませんみたいなこと言われたような記憶があったんだけど。
今回やったら普通にできました。
ちゃんと機能もかかっています。
なんかそのうまくかからないとかそういうところは抜きとしてとりあえず効果自体得られます。
単純にエキスパンダーとか分かりやすいと思うけど。
エキスパンダーノイズゲート2つ分かれたかな。
要は余計な環境をカットするとかっていうのはこの敷地に値するところ。
そのスライダーにしてあるんだけど。
それをいじればその音量未満のものは全部カットするとかそんなのもちゃんと反映していました。
あとは当然BGMを裏で流すとかそういうのも入れたし。
AIによる音声制作の効率化
あとはこれはポッドキャストならだでどうせだったらこうしたいって思うもの。
ちょっと話前後してしまうけど。
自分で音声収録する時っていうのもそうだけど。
最近ってAIのボイスクローンで音を読み上げさせて細々と分割した音声ファイルをオーディション上で並べ替えてみたいなことをしたりしています。
そこに自分でリアルにしゃべる声も混ぜたりとかいろんなやり方をしてるんだけど。
それをやるとね結局当たり前なんだけど並べてってなおかつBGMを設置して。
あとはなんか場面の切り替えだったDJのスクラッチみたいなのを入れてとかそんなことするわけだよね。
まあそれは当たり前なんだけど。
これ自体が手間だなってのもあるし。
これここに時間かける意味ぶっちゃけないなっていうところがものすごく大きくて。
やってて楽しいとかもあるから別にそういう点では構わないんだけど。
ぶっちゃけ全然再生されるわけでもないしそこでそんなところに時間を使うのも馬鹿馬鹿しい。
っていうのも含めてあとは全く別のベクトルでAI自体に興味が湧いている最中なので。
じゃあそっちを優先的に効率化する方に頭を持っていこうっていうところを今回試しました。
これをやるだけでDNA割り切りもできるし
なおかつその並べ替えだってドラッグ&ドロップで完結するわけだし
BGMだってアップロードするって形を取ってるんだけどアップロードするだけだし。
でねもう一個Adobe Auditionとか使っててだるいのが
例えばさBGMの最初のイントロ数秒間はボリュームを大きくしておいて徐々に下がっていってみたいなことってやったりするじゃん。
あと終わりの時もさ逆に最後。
例えば個人的にはさよならって言ったら終わるのが多いんだけど
さよならって言ったときは急にガッと持ち上がって最後フェードアウトみたいな感じの
最近ちょっと入れたりしてましたマニュアルで。
そうでねなんかそれがね地味にちょっとだるいんだよね結構めんどくさい。
特に終わりの位置をさこのタイムラインに置いてあるクリップ音声クリップを合わせてBGMのやつを合わせて
で最後ボリュームが上がるところをペンツールみたいので打ってみたいなそんな感じのことをするわけだけど
これがね地味にだるい。
ちょっと長ささ音声側をもし変えたとしたらここやっぱ邪魔だなと思ってカットしたりとかして
そうすると今度BGMの後ろの位置合わせなきゃいけないわけじゃんドラッグして
でドラッグしたらそのボリュームその上がるタイミングとかもずれちゃったりとかいろんなことあって
とにかく全体的に手間で。
でなおかついちいちさ一回そのオーディションで編集とか始めちゃうと音質について気にし始めちゃうじゃない少なからず
例えばフィラーがどうこうとかもそうだし音質自体も
ちょっとこれ環境音いっぱい張りすぎだなってもっと気を付けなきゃとか思いながら
一応テンプレートとしてある
トラックに対してかけるエフェクト群っていうのは作ってあるわけよ
これとこれとこれとこれをかけるっていうもう決めたテンプレ化したものが並んでるんだけど
ここから微調整とか始めちゃったりして
もうそんなことやったって大差ないのに大差ないっていうのは実際差はあるんだけど
そんなとここだわったってささっき言ったみたいにさそんな再生されるわけでもないのにっていう話じゃん
なので今回のはさっきの並び替えができるとかBGMも入れられてるのと
プラスBGMに関してもね指示出したら簡単に全部作ってくれるんだけど
その冒頭の何秒間はボリュームでかくしておいて
そこからぐっと下がってみたいなそういうのもできるようにしました
デフォで数値は全部こっちから指示して決めておいて
できることがイントロの最初ボリューム何デシブル上げとくか
何秒後に下がるかみたいのがまずできます
終わりに関しても喋り終わった最後ボイス音声側が終了した時点から
ぐいっと音量上がって何秒間継続してから終了するみたいなのもできるようにしました
収録とアップロード
なおかつ音声ファイル音声がイントロBGMに対して音声が開始するタイミングの遅延
頭に何秒間を取るかっていうのもこれも設定できるようにしました
デフォでこれこのぐらいでいいかなと思うのは当然指定してあるんだけど
全部スライダーでいじれるようにしてあります
これだけ考えてもね結構いい
ここだけ考えてもいいわめっちゃ楽だわ
AIで楽にできるものはどんどんしていきたいなっていうのプラス
本当にこれどっちにするかなんだけど楽しむっていうところも含めて
Adobe AuditionとかPremiere Proを触ってっていうのが楽しさの部分も少なからずあるので
それはもう完全に作業として捉えてなければないでいいものっていう方向に持ってかないと
個人的に今の状況においては無駄しかないかなっていう
今の形でいいんじゃないかなと思いつつやってる最中な感じではあります
ここからって機能を盛り込んでいったらいくらでもつけていけちゃうんだけど
1個肝になるものとしては現時点では音声ファイルをアップロードするっていう形をとっています
音声にあたる本当に声の喋ってるデータプラスSEとかもアップロードする感じだし
使いたいんであればBGMも普通にアップロードする感じだし
でも音声に関しては収録できたらいいじゃん
過去に全く別のものでGoogle AI Studioで収録用のツールも作りました
収録音声の収録 この声に関わる世界線で触れたね前に
収録プラス収録完了時点で全部文字起こしをして
あとは要約とタイムスタンプ作ったりとかボタンを押すといろいろ機能を発動するようにしたんだけど
ブログの記事マークダウン形式でブログの記事を出力するとか
ハッシュタグの広報を出すとかタイトルワンを10個出すとかサムネイルを作るとか
収録してその後に分析家庭に始まってみたいな感じのそういうものも作ってあります
これを2つを合算させるってなると指示自体がややこしくなるし
なんだかんだどっかでおかしくなってうまくいかなくなっちゃったりするから
ちょっと不安もあったんだけど収録のツール自体は一応試そうと思って今回つけてみました
音声編集の新しい手法
とりあえずうまくいきました
だから音声もすでに録音してあるものをアップロードするのプラスその場で収録をして
音声クリップとして並ぶので
これをさっき言ったようにドラッグ&ドロップで場所を前後入れ替えられる
本当に間にSEを挟んで場面転換みたいな感じにしたり
音声広告用のファイルを用意してそれを間に挟み込んだりそんなことができます
ある種これはダラダラ例えば20分とか話しちゃうのよりも
ちゃんと整理した構成に持っていきやすいツールにもなっているかなっていうのがあります
これどういうことかというとこのなんか別件で触れたけど
例えばツイッターに投稿することはできるんだけど連続で何回も投稿することはできるけど
記事を1個長い記事を書くことはできないって人って結構いると思います
個人的にもそうなんだけど
でそれを解消するためのサービスツールとかってのも開発されていて
文は書けぬがつぶやけるっていうサービスがあって
この140文字ツイッターになぞられて140文字ずつかな
枠が用意されていてそこに文章を打てるようになっています
これがいっぱい並んでるので並んでるんだか1個埋めたら次のボックス表示して
追加みたいにしてやっていくのか分からないけどとりあえず単文ずつ積み重ねていけば
長文書けない人もツイートできるんだったら書けるでしょっていう
最後全部くっつければ長文になるわけじゃんっていうようなサービスがあって
ある種それと同じような感覚なんじゃないかなっていうのを持っています
つまりその場で録音ができるっていうことは1テーマごとに
この短時間の短い音声データとしてこの録音を繰り返す
そうすると自然にちょっと意識が働くので
この1個1個の間1個目2個目3個目4個目みたいな分割予定
意識が湧くと思うのでだからある程度テーマ絞り込んで
簡潔にしてみたいなことがやりやすくなるんじゃないかなと思います
本当にまんまさっきのツイートはできるけど文章書けないの書けないっていうのと一緒じゃん
しゃべるのに関しては俺自身は別にいくらでもしゃべられるからいいんだけど
ただ全然まともにもないさあっち行ったりこっち行ったり
なおかつあっち行ったりこっち行ったりすんのはいいんだけど
ちゃんと区切りとかメリハリをつけてっていうことができなかったりもあるので
本当は最初にテーマ全部決めてやれれば一番いいんだけど
そういう頭にも持っていきやすいか
細切れで録音してこれを並べ替えることもできるわけだし
間にSE入れるとかオーディションで細々と微妙な位置調整とか
秒単位の調整とかする必要もないじゃん
なんかちょっと違うなとかってこともないわけだから
そう考えると収録をしてよし一個終わったじゃあSEここに間に挟んで
DJのスクラッチみたいなのを入れてよしじゃあ次の話に行こうみたいな
そんなことやってるうちにパッと頭に浮かんでくるものってあるじゃん
分割していってるから
じゃあここに関係するもので今頭に浮かんだものを2つあるから
じゃあこの2つをこういう順番で収録しようかなって
1個の話でまた収録終わったら次の話ってできるから
結構整理して作りやすいっていうのもあるんじゃないかなとは思います
繰り返しになるけど本当に最初にYouTubeとかで考えたらそうだけど
まずサムネット企画から考えるみたいな話が本当に根本的なところってあるから
そういうほうがいいんだろうけど
この分割して収録するってところも含めて
自然な流れでそういう方向認識を持ってきやすいんじゃないかなっていうのも
ちょっとあるんじゃないかなって
感覚的には個人的にはあくまで雑談ベースというか
そっちをメインでやりたいっていうのがあるので
専門的にどうこうって発信するんだったら
俺はポッドキャストになってYouTubeでやるべきだと思ってるので
みたいなところです
と言いつつ今そのツールはちょっと微妙に手加えたりしてるんだけど
そうなんかね言った指示ねうまいことやってくんなくて
またわけのわかんねえ状態にされて
今イラッとしてる最中なんだけど
AI技術の活用
そうでなんか後は本当に
今は収録録音したデータも並べられるって言ったけど
本当に最近は声に偏る世界線側だと前回
AIボイスクローンの話は触れたけど
メインのポッドキャストキックまとめのほうに関しては
結構そのAIのクローン音声を使っています
なんかイントネーションひどかったりする瞬間もあったりするんだけど
そうだからそういう意味合いで
そっちもねその細切れで録音というか読み上げがさせられるので
要は長文でやったほうがイントネーションが崩れる瞬間って
ところどころに含んでちゃったりするし
長くなるとね後半におかしくなるってことが結構あったりします
なんか暴走してんだかなんだかわかんないけど
だからあのクレジット的な概念がないので
生成に関して何回でも無限にできるわけよ
だから短文ずつ読み上げさせて
いい感じに聞こえたらそこでダウンロードして
次の先を読ませるっていうことを繰り返すことで
結構ね本当に人間っぽく作れます
最近やったキコまとめの直近でやったやつに関しては
ものすごい長文をまとめてやったから
すごいおかしくなったんだけど
これはひどいなみたいな感じであったんだけど
短文にするといい感じになって
なおかつダウンロードした複数のファイルがあるときにこそ
今回作ったツールが生きる
さっきみたいにドラッグとかで
間にSE挟んだりとかもできるわけだから
別にそんなに細切れになっている必要はないんだけど
並び替えも基本的には
音声クローンのほうで喋らせたところに関して並び替えする必要もないんだけど
細切れになっていれば
その間に例えばちょっとここ訂正だなと思ったときに
それこそこのツールだと
俺自身が生の声で収録して間に挟むこともしやすいじゃん
このツールの問題が何かあるとしたら
各音声クリップの中でカットとか分割とか
トリミングができないっていうところになります
ちゃんとした指示したらできるのかもしれないけど
ちょっと手間がかかりそうなのかなと思ったから
もうやめておいたんだけど
細切れであればあるほどに
何か訂正を加えるというときに
音声のカットとかができない分
短ければ短いほど
音声編集の技術
間にいろいろ挟んでごまかしもしやすいじゃん
並び替えることもできるだろうし
みたいなところで一応作りました
細かいところはまだ試せてないけど
本当にコンプレッサーとかノイズゲートとか
イコライザーもね
最初スリーバンドイコライザー的な感じにしたんだけど
今見てみるとね
一応スリーバンドの形式になっているんだけど
低域、中域、高域になっているんだけど
周波数もスライダーになっているので
好きな数値が指定できます
そう
波形、グラフみたいな感じで
ああいう風に曲線を描いていじれるわけじゃないから
あれだけど
だから大きく分けて
3つの周波数
周波数、周波数帯
帯域について
数値を指定した上で
原因を上げる下げる
みたいなことができるので
だからあれだよね
高域のほう通りやすく
というか下になったら
高域を持ち上げるとか
低域、こもったり聞こえるようだったら
低域とか中域をちょっと下げるとか
その周波数の数値を指定した上で
みたいなこともできます
ここまで細かいと逆にやりづらいから
ちょっともっとシンプルでいいかなと思うんだけど
ラウドネスノマライゼーションに関しても
ちょっとちゃんとここはね
本当に機能しているのかって確認が取りづらい項目なので
あれなんだけど
そんな感じになっていて
これは実用性結構高いんじゃないかなってところです
録音とテストの経緯
だから本当は今回動画で録画しながら
この画面映してやろうと思ったんだけど
ちょっと今映ってないんだけど
そう
なんかそれをさ
今言ったツールの性質上
音声ファイルのアップロードとか
自分が収録に当たって
その場で録音しなきゃいけないわけじゃん
に対して動画も同時で撮ってくって
なかなか難しいなと思って
なんていうの
そういう動画として撮るんだったらいいんだけど
音声側は音声側でツール上で
ちゃんと完成させた上で
動画の別撮りってなると結構大変じゃん
説明部分余計な説明部分
本編側本来の本物側の
音声ファイル作ろうとしている音声ファイル側には
入っちゃいけない音声とかだって生まれるわけだし
まあまあなんかそんなこともあって
そんなの考えてるぐらいだったら取り合いとっておこうってところで
今回ちょっと収録してみました
というかね今回本当は収録のテスト
単純に今オーディションで収録してるんだけど
オーディションで録音するテストと思って
ちょっとマイクのテストと思って
やってたらまあまあ
このまま話しちゃうかと思ってここまで来ちゃいました
なのでせっかくなのでこれはアップしようと思います
なんであれかな
静止画になっちゃうかもしれないけど
まあいいか
ちょっとわからない
動画にするかしないか
どっちにしても動画にしてもスポーティファー上でしか
見てはもらえないけど
ということでここに書いてある世界線
今回以上となります
こんな感じでちょっと試したこととかそういうのも含めて
情報としてシェアできればと思うので
聞きかけとか聞いてる人になるかもしれないので
今回Google AI Studio使ったので
本当に音声じゃないな
普通に高語レベルで指示をするだけで
簡単にプログラムとか作れるので
これも今回の件なんかいろいろごちゃごちゃやってさ
知識ない人が聞いたら
なんかめっちゃ難しそうなことやってるなと思うかもしれないけど
そんなことはないです本当に
こういう機能つけてくださいって言ってるだけ
微調整としてごちゃごちゃ文句言ってるだけ
なんでそんなこともできねえんだよって
言ってるっていうか俺は音声入力をするから
本当に言葉に出して言ってるんだけど
Google AI Studio
申し訳ございませんって言いながら
調整してくれて
ということで何か
参考とか
始めるきっかけとかになればと思うので
ということで今回以上となります
こんな感じで話していくのでよかったら
また聞いてください
さよなら
19:40

コメント

スクロール