【自作アプリで効率化】AIでリアルタイム文字起こし＆分析テスト！音声収録&ポッドキャスト投稿 – Google AI Studio - 声に偏る世界線 - ポッドキャスト/音声配信界隈

今回はポッドキャスト収録そして配信の効率化のためにGoogle AI Studioを使って開発したアプリを試してみました。

既存サービスを使うのと大して変わらない気もしますが、重要なのは自分の好みに合わせて機能を追加したりカスタマイズできること。今回正常に使えたので、もろもろ追加していこうと思います。何かのヒントや参考になれば嬉しいです。

- 自作ツールの試用開始
- 過去のリアルタイム文字起こしツールの経験 (Pixel, iOS)
- Google AI Studio製リアルタイム文字起こしツールの紹介
- PCでの音声入力と文字起こしの方法論
- 自作ツールの目的：自分用の議事録ツール
- ツールの録音機能とキーワード設定（「声に偏る世界線」）
- 録音停止/一時停止とデータ形式(webM)の問題
- 録音後の処理：文字起こし、要約、ハッシュタグ、翻訳、検索置換
- ツールの試用状況とリアルタイム表示
- 最終的な出力画面について
- 重大なトラブル：本命の録音を忘れていた
- webM形式の音声データへの対応
- 音質についての考察
- 今回エピソードのまとめとポッドキャスト関連情報
- エンディング

このテキストは、ポッドキャスト収録の効率化を目指し、リアルタイム文字起こし・分析ツールの自作とテストについて述べています。

音声コンテンツから即座にテキストを得る重要性を強調し、Google AI Studioを用いて専用ツールを開発中であることを報告。過去の文字起こし機能（Pixel、iOS）や自身の音声入力経験に触れつつ、開発中のツールには固有名詞のキーワード設定（例：「声に偏る世界線」も設定）による認識精度向上、録音後の文字起こし、要約、タグ付け、翻訳、置換などの機能が実装されていると説明しています。音声データの形式に課題（webm）はあるものの、実用化を進めており、メイン番組での活用も視野に入れている状況を報告しています。

※最終的にオンラインツールでWebMからMP3へ変換(AuditionもHandBreakもMedia Encorderも処理不可・・・)してAdobe Auditionで編集しました。

#声に偏る世界線 #リアルタイム文字起こし #GoogleAIStudio #Podcast #音声入力 #文字起こし #時短 #効率化 #ライフハック #ポッドキャスト #音声配信

※当サイトではGoogle Adsense/Amazonアソシエイト他、各種ASPによるアフィリエイト広告リンクを含む場合があります。

収録ツール紹介

おはようございます。2025年6月16日朝の収録です。今回は今収録ツール

自分で作ったアプリ試しながら録音しています。前からリアルタイム

の文字起こしについてちょこちょことこの声に偏る世界線そして

メインのきくまとめのほうでもいろいろと触れていました。この

番組の中では Google Pixelの6から搭載されたレコーダーの機能について

いるリアルタイム文字起こしこれが当時で考えるとめちゃくちゃ

精度も高くてびっくりしたみたいな話もしました。それを今改めて

2025年に試してみたりも何回か前にしたんだけどこれについては

精度は今となってはAIに任せちゃったほうがいいなという感じそういう

結果にはなりましたとか言ってる間にごく最近 iOS側は今さらボイス

レコーダーの機能に文字起こし機能がついたみたいな状況もあった

りみたいなところで本題としては今 Google AI Studioで自分用に作った

アプリの機能設計

アプリリアルタイム文字起こし & 分析ツールこちらを試している

最中ですもう完全に自分用なんだけどさっきのPixelとかの文字起こし

がどうこうとか文字起こしサービス AIツール使うとかっていう話も

そうなんだけど基本的にリアルタイムで録音完了と同時にテキストが

手に入れたいっていう感じの考えですいろいろ試したりとかして

たんだけどあとはこれも時々触れている今 PC上でのテキスト

入力って 9割音声入力を使っていますこれはもう4年前ぐらいからもう

そういうふうにしていてここ最近でいい感じのAIサービス

Aqua Voiceっていうのにたどり着いたのでより音声入力率が高まっている

みたいな状況になりますだから音声の文字起こし今言ったのは

音声入力になるけど文字起こしと逆のパターンではあるけど方法

って山ほどあるわけだよね例えば極端な話ボットキャスト収録として

今話しているこの話している最中に AIの音声入力のソフトとか

を起動してそのまま手に入れるなんてことも当たり前だけどできます

そういうこといろいろ試したりからしている中そうだと思って

本当に冒頭で触れたGoogle AI Studio で自分用のリアルタイム文字起こし

アンド分析ツールを作ってしまおうというところで言ってみたらちょっと

違うかもしれない自分用の擬似録みたいなやつそれをちょこちょこ

最近試していました微調整とかかけた上で今一旦これで落ち着いた

かなっていうところでテストをしている最中です一応何かの

参考になればっていうところでまずブラウザーで普通に録音をして

マイクの選択とかの画面もつけて録音開始しますその前にキーワード

設定っていうのを今回つけました要は最終的に文字起こしという

か収録した音声から文字起こしとしてくれるわけだけどそのとき

実用性と今後の展望

にAIが迷わないように固有名詞とかを入れる機能例えば今回

設定したのは声に偏る世界線この番組の名詞を一応入れてきました

何回か録音試したりしてるからもう認識してくれるような状況

にはあるはあるんだけどそうとか例えば今回触れる内容が多分

一発じゃ言葉出てこないだろうなと思うようなもの何でもいいん

だけど例えば Google AI Studio これは普通に文字起こしはしてくれる

と思うけどとかそういうものを登録しておくことによっておそらく

文字起こし時の精度が上がるというか変換工法として見てくれてる

印象があるのでそれは事前に設定して録音開始しますあとは録音

停止と一時停止の機能も一応付けたんだけど録音停止と同時に録音

データがまず手に入りますただこれ実用性はちょっとあるかは微妙

で収録の拡張子がWebM 何て読むのか分かんないけど Googleの音声

ファイルの形式だったけか WebM じゃないっけちょっと間違った

ごめんなさい MP3とかではないんだよねちらっと何回か試したところ

ブラウザ依存なのか何だかよく分かんないけど MP3での保存ができない

みたいな話をされていいやと思ってゆくゆくはそれも録音ツール

としても使えればいいかなとは思ってたんだけどあとは例えば

ノイズの除去機能だとかそういうのもやろうと思えばできるっぽい

んだけど Google AI Studio内で簡単に完結することはできないのでみたいな

感じでスルーをされたのかなそこまでは求めてないんだけど録音

終了した時点で疑似録ツールとかみたいに文字起こしプラス要約

とかあとはハッシュタグを出してくれっていう指示もしてあります

さらに追加で文字起こしのデータから例えば翻訳これは意味なく

AIだから簡単に機能できるんだろうなと思ってやっただけなんだけど

翻訳ボタンを押すと全部英語に返ってくれるとかあとは検索と

痴漢の機能も付けましたそうなので最終的に文字列間違って

なってなったときに何回も繰り返し出てくるような言葉統一的に

間違って文字起こしされてるようなものに関してはそれで一括で痴漢

をかけるこの状態で実用性はないといったものの一応音声データ

が手に入りそして文字起こしデータさらには要約のデータタイトル

広報は今出してないけどタイトル広報なんかも進み出せるだろう

しみたいな状況になってますなのでこれを今回今回求めている

機能を実装した上で初めて録音終了までやろうかなっていう段階

なので一応今リアルタイムで文字起こししてるものの画面とか

もこの番組だと WordPressのブログ上で音声配信をしているのでそこの

データから各Podcastのプラットフォーム AppleとかSpotifyとかそっちにも配信

を自動でするようにしていますなのでブログ側に行ってもらう

と普通の一般的なブログの記事の形式でも内容を確認できるよう

になっているのでそこにスクショとか載せておきます今回自分で

作ったやつこんな感じで今文字起こしリアルタイム成形っていう

感じでずらずらとこれゴジとかも含んでるんだけど同じ文章が

繰り返されてる感があるんだけど多分最終的に成形されると思うん

だよな成形されなかったら今回のボツになると思うので最後録音

停止っていうボタンを押したときに普通にさっき言った実際に投稿

するときに役立つもの概要欄に入れるようなものとかその画面

もスクショして載せようと思うので何も失敗しなければなんか

わけやからエラー出て台無しになることもあるからこれを聞くこと

ができた人は違う音声データやばいちょっと録音してなかった

何やってんだどうしよう言ってる意味分かるでしょうか録音を別

でしておいて別撮りしておいてこのリアルタイム文字起こしで

やるつもりだったんだよね音声データ WebMだか何だかその形式

のなんとかするしかないね変換したりすれば音質が悪かろう

が配信にはフォドキャストには流せるはずだよな多分ちょっと

そこもやってみますだから聞けたら今回聞けたらその形式だ

と思ってください拡張し何だっけな WebMじゃなかったっけなだから

音質はチラッと聞いた感じ別に特別悪いような気もしなかったん

だけどちゃんと比べたら劣化してんのかなということで今回

はGoogle AI Studioでフォドキャスト用のツールテストしてみたという

話でしたこんな形でフォドキャストに絡み合うような話題いろんな

話題機材機材としても高いものとかは使ってないのであれだけど

むしろこれから始まる人とか安い機材逆にどうなのみたいな

思う人にはいいんじゃないかなとは思いますそのほかフォドキャスト

周りの最新情報あんま置いてないけどそういうのに触れるときも

あると思うしまさしく今回みたいにある意味ではメインの聞くまとめ

という番組の裏側的なところを話す感じにもなると思うので

今使っている今日試したツールっていうのは当然聞くまとめ

のほうでも順次というか今後使っていこうとしてるものなので

ということで今回は以上となりますよかったらフォローなどお願いします

さよなら

【自作アプリで効率化】AIでリアルタイム文字起こし＆分析テスト！音声収録&ポッドキャスト投稿 – Google AI Studio

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

Koukichi Takahashi

サマリー

目次

スターの数

コメント

こちらもおすすめ