1. 声に偏る世界線 - ポッドキャスト/音声配信界隈
  2. AIで叶える理想の「ポッドキャ..
2025-07-09 14:18

AIで叶える理想の「ポッドキャスト音声編集」アプリ【Google AI Studio】バイブコーディングの可能性と試行錯誤の記録

この音声はこちらのブログから配信しています「https://podcast.koukichi-t.com/?p=1016」です。

今回は動画版あります。Spotifyへ。

先日の「ないなら作る AI時代の音声配信」の続きです。開発中のポッドキャスト収録?アプリですが、もう少し調整をかけ、現状記録としてこちらに残しておきます。

現時点公開を想定しているものではありませんがしているものではありませんが、バイクコーティングの可能性。また、なかなかAIに手が出せずにいる方の参考や取り組みのきっかけになれば嬉しいです。

収録とは別途、音声投稿時の煩わしい作業を簡単に済ませる「瞬殺Spotify for Creators」も開発中 笑。こちらにも今度触れます。

目次

自作ポッドキャスト編集ツール紹介 ツールの概要と目的 複数の音声ファイル配置とSE/広告/BGM挿入機能 バイブコーディングで作成 音声エフェクト機能(コンプレッサー、EQなど) 各音量調整ミキシング機能 広告再生中のBGM自動停止 BGM開始後のボイスディレイ BGMイントロ/アウトロ音量調整 ツールの開発現状と記録理由 音声ファイルの読み込みとデモ 録音機能について 音声広告挿入デモ(Amazon Audible) ファイルのドラッグ順序変更 音声分割機能の不具合 リアル音声での追記収録デモ Gemini CLIによるAI口調学習の試み AI音声の精度向上と今回のテスト 分割と挿入の編集意図 SE挿入デモ(DJスクラッチ) ツールの公開可能性と誰でも作れること BGM設定とプレビュー BGMイントロブーストの確認 言葉でプログラムできる可能性 ツールのユニークさと潜在能力 ノイズゲート適用テスト ツールの想定される利用シーン(細切れ収録など) 自前の音声広告活用の経験(Anchor時代) SE/BGM挿入機能(Anchorとの比較) 公開の可能性と需要について 開発における課題(修正と機能不全) 公開時の懸念点 試行錯誤の過程と配信テーマ

音声概要

ポッドキャストや音声コンテンツ制作に役立つ、複数の音源を組み合わせ編集できる自作ツールの開発過程を記録。AI音声の活用や各種音声エフェクト、ミキシング機能などを紹介し、その可能性と現状の課題について話しています。

今回の「声に偏る世界線」では、私が現在開発を進めている、ポッドキャストや音声コンテンツ制作のための自作ツールについて、その開発記録と機能デモを中心に話しています。特に、AI音声の活用や複数の音源を効率的に編集したいと考えている方にとって、ヒントになる情報があるかもしれません。

例えば、こんな疑問はありませんか? ・AI音声で長文を読み上げさせると、話速や抑揚が不安定になる問題をどのように回避して、スムーズなコンテンツにするか? ・複数の音声ファイル(AI音声の分割データ、自分の声、SE、広告など)をまとめて管理し、自由に並べ替えたり間に挿入したりする方法はないか? ・ポッドキャストの音声に、手軽にSEやBGM、音声広告などを効果的に組み込みたいが、複雑な編集ソフトは使いこなせない。 ・コンプレッサーやノイズゲートといった基本的な音声エフェクトを、ファイルごとではなく、コンテンツ全体に一括で適用して音質を整えたい。 ・BGMと広告の音量バランス調整や、広告再生時にはBGMを自動で停止させるといった細かい演出を実現したい。

私がバイブコーディングという手法で開発しているこのツールは、これらの課題を解決することを目指しています。AI音声の特性に合わせて音声を分割して扱いやすくしたり、ブラウザ上で直感的に複数の音声ファイルを配置・編集したりできるような機能を実装しています。具体的には、音声ファイル、SE、広告、BGMといった様々な音源をタイムライン上に並べ、ドラッグ&ドロップで順番を変えたり、必要に応じて間に別の音声を録音して挿入したりできます。

また、配信の音質を向上させるためのコンプレッサー、イコライザー、ノイズゲート、ラウドネスノーマライゼーションといった音声エフェクト機能も搭載し、各音源の音量を細かく調整できるミキシング機能も用意しています。特にこだわった点として、広告再生中は自動的にBGMを停止させる機能や、BGMの冒頭と終わりに音量ブーストをかける機能など、ポッドキャスト配信で役立つような工夫を凝らしています。

さらに、Google AI StudioのGemini CLIを使用して、私の過去の配信データから口調を学習させ、より自然なAI音声を作成する試みについても触れています。このように、技術的な試行錯誤の過程も含めて記録として残すことで、同じように音声コンテンツ制作に挑戦している方や、ノーコード/ローコード開発に興味がある方にとって、何か刺激や参考になる点があれば嬉しく思います。現状はまだ開発途上で不具合もありますが、「言葉でプログラムする」ような感覚で誰でも開発に挑戦できる可能性についても示唆しています。

この配信を聴くことで、これらの疑問や問題が解決されるかもしれません。ポッドキャスト編集の効率化、AI音声の活用方法、または自作ツール開発に関する情報などを探していた方は、是非最後まで聴いてみてください。

※この配信内で編集した「聴くまとめ」の実際のエピソードはこちら

#ポッドキャスト #AI #自作音声編集ツール #自作アプリ #バイブコーディング #AI活用 #声に偏る世界線 #音声編集 #ノーコード #GoogleAIStudio #Gemini #AIコンプレッサー #ノイズゲート

※当サイトではGoogle Adsense/Amazonアソシエイト他、各種ASPによるアフィリエイト広告リンクを含む場合があります。

サマリー

ポッドキャスト音声編集アプリについての試行錯誤を通じて、音声ファイルの複数配置やエフェクト設定、録音機能が紹介されています。また、AI技術を活用して自分の口調に合わせた音声生成の取り組みについても語られています。AIを活用した音声編集アプリに関する試行錯誤や発見が述べられています。このエピソードでは、音声ノイズの除去や広告挿入の方法が紹介され、ユーザーの可能性についての考察も行われています。

音声編集アプリの紹介
こんにちは、ケイティーです。7月7日の収録です。今回は、声に偏る世界線用として、普段収録する時に最近使っている自分で作った収録用の、収録用のアプリじゃないな、ごめんなさい。
収録後、収録の機能も付けてあるんだけど、複数の音声ファイルを配置して並び順を変えたりとか、例えば
ブラウザ上でSEを用意して、SEを間に挟んでいくとか、広告の音声を挟んでいくとか、それでバイブコーディング。
普通に交互でも、これこういう機能を付けてとかって言っていって作ったものになります。
完全にはなってなくて、まだ問題点もあるんだけど、とりあえず音声で聞いている方にも伝わるように、今画面を映しているもの。
音声ファイルを複数指定して並べたりとか、SEでしょ、音声のサウンドエフェクトとか広告の音声を入れたりとかBGMの設定すると、このボイスとかSEとか流れる背景で流れます。
それであとはエフェクトとして、コンプレッサー、イコライザー、ノイズゲート、ラウドネス、ノーマライゼーションとか項目もあります。
さらにミキシングとして、ボイス音量、SE音量、広告音量、BGM音量、マスター音量とかを全部いじれるようになっています。
ちょっと細かいけど、広告の再生中はBGMを停止する。広告中にメインのこのBGM流れっぱなしじゃまずいじゃん。
これオンオフつけてくれたんだね。これはもう勝手にオフにしてとしか指示はしてないんだけど。
あとはBGM開始後のボイスの音声側のディレイ、遅延をかける。
初っ端からいきなり喋り始めたいんだったらゼロにすればすぐ話してくれるし、5秒経ってから話し始めてほしいんだなみたいなこんなことも設定してあります。
あとはBGMの一応なんかよくあるやつでさ、最初だけ音声、音量がでかくて、しばらく経つと徐々に小さくなって、いい感じの音まで下がるみたいなのがあると思うけど、そういうのもブースト量として、イントロのブースト量何デシベルとか、ブースト時間、5秒間とデフォで記載してあるんだけど。
同じ感じでアウトロ、終わりの時にも同じような感じの処理をかけてあります。ここねちょっとね今ちょうどうまくいってないかもしれないんだけど。
はいみたいなところで、ここまぁこんなものを作りましたよっていう話にしか現時点はならないんだけど、ちょっとこれを記録しようと思います。
AIの活用と機能
まずちょっとボイスの選択、ちょっと流します。お疲れ様です。ケイティーです。今回は最近ちょっとまた使い始めたR…
はいこんな感じでまずこの音声があります。もう全部読み上げで作ったもの。そしてちょっと一応機能をざっくり見ていくとここに対してこのコンプレッサーだとか
イコライザー、低域、中域、高域、まぁこれをいじることってないけど一応つけてるぐらいで。ノイズゲートとかも入っています。
と、ラウドネスノーマライゼーション。はい。具体的にはこの録音機能もあるのでこれも一応機能します。マイクの指定をして。
なのでこれちょっと見てもらうと今の時点だとちょっとわかりづらいかもしれないけど、個人的にはねこの音声読み上げさせることがあるのでこれって長文読みを回せちゃうと
どんどんね後半ねものすごいなんていうのテンションが爆上がりみたいになってたりとか早口になったりとか起きちゃうので適度に分割してダウンロードしてファイルを用意するようにしています。
AI音声。なのでその都合上から何個もずらっと並ぶわけだよね。例えば1個のエピソードに置いて3回に分けたとかそうするとその3つに分かれるのでそれを読み込んでここに並べて
それでまあできるようにっていう感じです。でその合間合間に例えば自分で修正の音声を追加したりとか
あとは今回はAIでいつものように読み上げをさせたことのテストをしていますというのを間に挟んだりとかしたかったりとかあったとするじゃん。
その場合にこの録音機能を使ってここ並び替えるみたいな感じ。ちょっとわかりづらいと思うのであとは広告の機能。広告の機能も挿入用に枠を用意してあるのでこれは実際に音声広告を作ったものが
あります。Amazon Audible。これ実際今回映しているこのエピソードはメインの聞くまとめで実際に公開する予定のものの今編集状況を記録しているので
これは概要欄とか声に偏る世界線のこのエピソードの概要欄にリンクは
あれリンク設置できるよね。リンク設置するのでそこから飛んでぜひ聞いてみてください。
今まさしく見せているものね。これをそのまま配信するのでそこに対して今触れていた音声広告これも挿入をするので今実際に画面上で音声も流す。ちょっと待ってください。
見つからない。これかな。今音声広告追加しました。そうすると下にここ加わったのがわかると思います。
オーディオ、アド、アマゾン、オーディブル。ちょっとこれも流してみます。
こんな感じでこれはこれもまあAIを使って作ったものなんだけど。なのでこれがドラッグで順番入れ替えられますよってことになります。
でちょっと今回やりたいのはここね。この音声を分割したい。あれなんかめっちゃずれちゃってる。これ何これ。位置ずれちゃってるじゃん。
これトリミングとかの機能なんだけどこれトリミングできないな。トリミングと前後を縮めるっていうのと分割ができるようになってます。その分割をしたかったんだよな。
じゃあまあちょっと今この状態で機能するかわかんないけどダブって機能ってできるのかな。今録音中だけどこっちでも録音ってできるのかな。ちょっと試してみます。
はいリアルKTです。今回はまた音声AIに読み上げをさせてっていう収録会にはなります。
対して以前から触れていたGemini CLIを使用して俺のポッドキャストの音声の文字起こしをしたデータを読み込ませて俺の口調を学習させ、
そして例えばAIに作ってもらった文章、何の変哲もないごく普通の文章、これを俺の口調に直してって指示をすると俺っぽい感じで書き直してくれるっていうものをGemini CLIで作ってるというか、進めています。
で、徐々に精度上がってきてるかなっていうところで、今回の音声聞いてもらって普段聞くまとめ聞いてる方だったら俺の口調とかなんか話し方とかわかると思うので、
そこと比較してどうでしょうかみたいなところで聞いてもらえたらなと思います。
まぁちょっとはマシになったかな。まだ微妙なところ、俺が絶対言わない言い回しのところもあるんだけど、あと若干俺が実際に手を加えちゃったところもあるんだけど、9割そのままGemini CLIに直してもらったまんまの感じです。
これでどんどん精度上げていけば、なんかね、より俺っぽい感じでAIが読み上げてくれるっていうのはちょっと理想かなと思うんで。
実際の編集状況
こんな感じで随時、ちょっと変更を加えましたって言って精度が徐々に高まっていくところっていうのも記録に残せたらいいかなっていうところで。
はい、ということでこの後、AI KTの方の話聞いてみてください。
はい、で、これ録音するとここでまた再生できます。ちょっと再生します。
はい、リアルKTです。今回はまた、確かに今追加したもの、録音したもの。で、このプラスボタンを押すと下に追加されます。
つまりさっき分割がなんかこの表示の場所がおかしいかできなかったけど、
このね1個のやつを途中で区切り抜いて分割して、その間に今収録した説明、今回のに関する説明ね、この後AIが読み上げですっていう説明を加えたものを間に挟みたかったね。
ちょっと今できないけど。で、まあこんな感じで移動できるので。なので何箇所かに分割して間にこの音声広告挟んだりとか。
あとはせっかくなのでちょっともう1個やろう。そんな見せたところでこれ公開用のやつじゃないからさ、あれなんだけどこんなことができますよって別に俺特別な知識やってるわけじゃないので、
誰でもできます。これは今使ってるこのアプリというかサービスを作ることは誰でもできるマジで。やろうとするかしないかだけの差なので、そういう意味で参考にしてもらえたらなと。
公開の仕方もやろうと思えばできるらしいんだけど、なんかちょっとまだそこに到達できないので、今DJのスクラッチというのを加えました。
じゃあとりあえずこんな感じにしてみよう。一応こういうふうにしたとします。音声広告が一番最後っておかしいけどまあいいか。
自分で今実装しているものだとこれプレビュー生成ってやるとレンダリングしてくれて下で再生できるようになります。流します。
お疲れ様です。
ちょっと待ってBGM設定しなかった。いつも使っているBGMを指定しました。これでもう1回プレビュー生成ってやるとBGM入ってくれる。
お疲れ様です。ケイティーです。
今ボリューム下がったの分かったでしょうか。冒頭のこのここで指定している5秒間は10dBプラス。5秒経過したらゆったり下がってちっちゃくなる。
ちょっと先に送っていこう。DJのスクラッチのところちょっと見てみよう。3分52秒。
この辺りから。ありがとうございました。また次回の配信でお会いしましょう。さよなら。
AIによる音声編集の試行錯誤
リアルケイティーです。今回はまた今の中で分かったでしょうか。AIでしょ。DJのスクラッチで切り替わって、俺がさっき録音したもの。最後ちょっと音声のところまで。
ということでこの後AIケイティーの方の話聞いてみてください。
こんなことが本当に言葉。普通に俺が今こういう風に話してるみたいな言葉で伝えることでプログラムができてしまうので、そこらへんにやらない手はないと思うので。
これを見てこんなやり方する人っていないと思うからちょっと特殊かもしれないけど、これだけのことが1個もずれてきちゃってすごくない。
しかもこれ全部のファイルに音声ファイルにかかるようにしちゃってあるから一括でやるのはどうかと思うけど、例えばさっきの俺が収録したところってノイズゲートを使ったほうが多分消えるじゃん普通に。
例えば聞いてみようか。多くないかもしれないな。文字起こしをしたデータを読み込む。BGMの音量が邪魔だな。
じゃあBGMを消してみよう。ゼロ。こういうことできるのもすごくない?聞こえて流します。
この音声の文字起こしをしたデータを読み込ませて、俺の口調を学習させ、今のじゃあれか、バックグラウンドノイズなんてわかんないか。
例えばAIに作ってもらう。
とりあえずこれをこうにやればバックグラウンドノイズは消えるわけだよね。
ちょっとここまでさすがにやっちゃうと言葉自体カットされちゃいそうな気がする。
これじゃちょっとわかんないね。
じゃあわかりやすく例えば広域めっちゃ上げてみます。
収録会にはなります。
あれ変わってないかな。もしかして反映してないかな。
なんかをいじるとどっかが機能しなくなるみたいなことがあるかも。もしかしたらちょっと反映しなくなっちゃってる可能性もあるけど、ちょっと何の変哲もないごく普通の文章。
変わってないかね。
こんだけいじればめっちゃ変わりそうだけどな。
収録会にはなります。
対して。
まあまあちょっと今のでわかんなかったかもしれないけど、そうまあみたいなところで、
例えばこの前もこのツールについて触れたときに話したんだけど、一般の人が、まあこれはさ俺が作ったもので公開できるかもわかんないから言ってもあれだけどさ、
そのさ、前に言ったのだとツイッター、文章を書くのめちゃくちゃ苦手だけどツイートはできるっていう人っているんじゃないかと思います。
それと同じように、この細切れにして、なんかちょっと話しては一旦停止して、でまた話してこう何個も並べてみたいなやり方をしていくと、
あのいい感じの一つの音声ファイルにできるかもしれないし、
例えばフィラーとかさ入んないようにとか、フィラー入っちゃったらちょっと取り直して削除してみたいなことを繰り返してやるのには悪くないかもしれないです。
しかもその音声広告さて、まあ自前の音声広告ってやってる人なんてなかなかいないと思うけど、俺は昔からやったんだけどこれ。
最近やってなかったけど。
アンカーの時代に自分で広告作ってやったりしました。
そう。
だから音声広告挟むとかSE挟むとかっていうの。
これもアンカーだよね、アンカーだったね。SEがいっぱい用意されてて選択できるようになってて。
そう好きなもの挟んで。
アンカー昔のだとBGM、この音声ファイル単位でその背景のBGMを変えられたりしたんだけど、ちょっとそこまで実装してないけど。
まあまあこんな感じで使えて、どうにか公開できたら一番いいんだけどな。
もうなんか需要があればっていう話でもあるけど。
そう。
というところで、まあ一回このせっかく自分で作ったもの、動画っていう形式に残せていなかったので記録できればなっていうところのアルテマ残した回です。
広告挿入とユーザーの可能性
あとはこれね、これもうまくいってないんだけどプリセットの保存も一応できるんだよね、この作ったもの。
難しい。
何かを直してもらうと他のところが機能しなくなっちゃったりして。
最近はその修正指示を出した後に他のところは一切いじらないでって伝えて、それである程度うまくいってるんだけど。
長い期間にここら辺は別にそんなメインで使わないからと思って放置したからここ使えなくなっちゃってね。
こういうところがあるので仮に公開できてもさ、ここいじったらここおかしくなっちゃったみたいなのがしょっちゅう起きちゃってもあれだなっていうところで。
そういうのも分かってもらった上で使えるようなそういう状況であればいいんだけど。
ということで一応現状の記録というところで残してみました。
こんな形で試行錯誤している点、音声収録とか。
音声に限らず動画関連にも含む配信とかに関しても話すこともあると思うけど。
そういうところを随時公演に偏る世界線では配信しているので。
よかったらフォローなど。
初めて来た方は名前が覚えづらいかね。
声に偏る世界線。一回覚えてしまえば他にない名前だから逆に忘れることはないのかもしれないけど。
声に偏る世界線というふうに言葉としても記録しておいてもらえたらと思います。
今回以上となります。最後までありがとうございました。さよなら。
14:18

コメント

スクロール