1. 声に偏る世界線 - ポッドキャスト/音声配信界隈
  2. 【自作アプリで効率化】AIでリ..
2025-06-16 08:14

【自作アプリで効率化】AIでリアルタイム文字起こし&分析テスト!音声収録&ポッドキャスト投稿 – Google AI Studio

今回はポッドキャスト収録そして配信の効率化のためにGoogle AI Studioを使って開発したアプリを試してみました。

既存サービスを使うのと大して変わらない気もしますが、重要なのは自分の好みに合わせて機能を追加したりカスタマイズできること。今回正常に使えたので、もろもろ追加していこうと思います。何かのヒントや参考になれば嬉しいです。

  •  - 自作ツールの試用開始
  •  - 過去のリアルタイム文字起こしツールの経験 (Pixel, iOS)
  •  - Google AI Studio製リアルタイム文字起こしツールの紹介
  •  - PCでの音声入力と文字起こしの方法論
  •  - 自作ツールの目的:自分用の議事録ツール
  •  - ツールの録音機能とキーワード設定(「声に偏る世界線」)
  •  - 録音停止/一時停止とデータ形式(webM)の問題
  •  - 録音後の処理:文字起こし、要約、ハッシュタグ、翻訳、検索置換
  •  - ツールの試用状況とリアルタイム表示
  •  - 最終的な出力画面について
  •  - 重大なトラブル:本命の録音を忘れていた
  •  - webM形式の音声データへの対応
  •  - 音質についての考察
  •  - 今回エピソードのまとめとポッドキャスト関連情報
  •  - エンディング

このテキストは、ポッドキャスト収録の効率化を目指し、リアルタイム文字起こし・分析ツールの自作とテストについて述べています。

音声コンテンツから即座にテキストを得る重要性を強調し、Google AI Studioを用いて専用ツールを開発中であることを報告。過去の文字起こし機能(Pixel、iOS)や自身の音声入力経験に触れつつ、開発中のツールには固有名詞のキーワード設定(例:「声に偏る世界線」も設定)による認識精度向上、録音後の文字起こし、要約、タグ付け、翻訳、置換などの機能が実装されていると説明しています。音声データの形式に課題(webm)はあるものの、実用化を進めており、メイン番組での活用も視野に入れている状況を報告しています。

※最終的にオンラインツールでWebMからMP3へ変換(AuditionもHandBreakもMedia Encorderも処理不可・・・)してAdobe Auditionで編集しました。

#声に偏る世界線 #リアルタイム文字起こし #GoogleAIStudio #Podcast #音声入力 #文字起こし #時短 #効率化 #ライフハック #ポッドキャスト #音声配信

※当サイトではGoogle Adsense/Amazonアソシエイト他、各種ASPによるアフィリエイト広告リンクを含む場合があります。

サマリー

2025年に向けて、自作アプリを使ったリアルタイム文字起こしと分析テストに焦点を当てています。Google AI Studioを利用して、音声収録からテキスト取得までのプロセスや精度向上のための工夫を説明しています。

収録ツール紹介
おはようございます。2025年6月16日 朝の収録です。今回は今収録ツール
自分で作ったアプリ試しながら 録音しています。前からリアルタイム
の文字起こしについてちょこちょ ことこの声に偏る世界線 そして
メインのきくまとめのほうでも いろいろと触れていました。この
番組の中では Google Pixelの6から 搭載されたレコーダーの機能について
いるリアルタイム文字起こし これが当時で考えるとめちゃくちゃ
精度も高くてびっくりしたみたいな 話もしました。それを今 改めて
2025年に試してみたりも何回か前 にしたんだけど これについては
精度は今となってはAIに任せちゃ ったほうがいいなという感じ そういう
結果にはなりましたとか言ってる 間に ごく最近 iOS側は今さらボイス
レコーダーの機能に文字起こし 機能がついたみたいな状況もあった
りみたいなところで 本題として は 今 Google AI Studioで自分用に作った
アプリの機能設計
アプリ リアルタイム文字起こし & 分析ツール こちらを試している
最中です もう完全に自分用なんだけど さっきのPixelとかの文字起こし
がどうこうとか 文字起こしサービス AIツール使うとかっていう話も
そうなんだけど 基本的にリアルタイム で 録音完了と同時にテキストが
手に入れたいっていう感じの考え です いろいろ試したりとかして
たんだけど あとは これも時々 触れている 今 PC上でのテキスト
入力って 9割 音声入力を使っています これはもう4年前ぐらいからもう
そういうふうにしていて ここ 最近でいい感じのAIサービス
Aqua Voiceっていうのにたどり着いた ので より音声入力率が高まっている
みたいな状況になります だから 音声の文字起こし 今言ったのは
音声入力になるけど 文字起こし と逆のパターンではあるけど 方法
って山ほどあるわけだよね 例えば 極端な話 ボットキャスト収録として
今話している この話している 最中に AIの音声入力のソフトとか
を起動して そのまま手に入れる なんてことも当たり前だけどできます
そういうこと いろいろ試したり からしている中 そうだと思って
本当に冒頭で触れたGoogle AI Studio で 自分用のリアルタイム文字起こし
アンド分析ツールを作ってしまおう というところで 言ってみたら ちょっと
違うかもしれない 自分用の擬似録 みたいなやつ それをちょこちょこ
最近試していました 微調整とか かけた上で 今 一旦これで落ち着いた
かなっていうところでテストを している最中です 一応 何かの
参考になればっていうところで まず ブラウザーで普通に録音をして
マイクの選択とかの画面もつけて 録音開始します その前にキーワード
設定っていうのを今回つけました 要は 最終的に文字起こしという
か 収録した音声から文字起こし としてくれるわけだけど そのとき
実用性と今後の展望
にAIが迷わないように固有名詞 とかを入れる機能 例えば 今回
設定したのは声に偏る世界線 この番組の名詞を一応入れてきました
何回か録音試したりしてるから もう認識してくれるような状況
にはあるはあるんだけど そうとか 例えば 今回触れる内容が 多分
一発じゃ言葉出てこないだろう なと思うようなもの 何でもいいん
だけど 例えば Google AI Studio これは 普通に文字起こしはしてくれる
と思うけどとか そういうものを 登録しておくことによって おそらく
文字起こし時の精度が上がるという か 変換工法として見てくれてる
印象があるので それは事前に設定 して 録音開始します あとは録音
停止と一時停止の機能も一応付け たんだけど 録音停止と同時に録音
データがまず手に入ります ただ これ 実用性はちょっとあるかは微妙
で 収録の拡張子がWebM 何て読む のか分かんないけど Googleの音声
ファイルの形式だったけか WebM じゃないっけ ちょっと間違った
ごめんなさい MP3とかではないん だよね ちらっと何回か試したところ
ブラウザ依存なのか何だかよく 分かんないけど MP3での保存ができない
みたいな話をされて いいやと思 って ゆくゆくはそれも録音ツール
としても使えればいいかなとは 思ってたんだけど あとは例えば
ノイズの除去機能だとか そういう のもやろうと思えばできるっぽい
んだけど Google AI Studio内で簡単に 完結することはできないのでみたいな
感じでスルーをされたのかな そこ までは求めてないんだけど 録音
終了した時点で 疑似録ツールとか みたいに 文字起こしプラス要約
とか あとはハッシュタグを出して くれっていう指示もしてあります
さらに追加で文字起こしのデータ から 例えば翻訳 これは意味なく
AIだから簡単に機能できるんだろう なと思ってやっただけなんだけど
翻訳ボタンを押すと 全部英語に 返ってくれるとか あとは検索と
痴漢の機能も付けました そう なので 最終的に文字列間違って
なってなったときに 何回も繰り 返し出てくるような言葉 統一的に
間違って文字起こしされてるような ものに関しては それで一括で痴漢
をかける この状態で実用性はない といったものの 一応 音声データ
が手に入り そして文字起こし データ さらには要約のデータ タイトル
広報は今 出してないけど タイトル 広報なんかも進み出せるだろう
し みたいな状況になってます なので これを今回 今回求めている
機能を実装した上で 初めて録音 終了までやろうかなっていう段階
なので 一応 今 リアルタイムで 文字起こししてるものの画面とか
も この番組だと WordPressのブログ 上で音声配信をしているので そこの
データから各Podcastのプラットフォーム AppleとかSpotifyとか そっちにも配信
を自動でするようにしています なので ブログ側に行ってもらう
と 普通の一般的なブログの記事 の形式でも 内容を確認できるよう
になっているので そこにスクショ とか載せておきます 今回自分で
作ったやつ こんな感じで 今 文字起こし リアルタイム成形っていう
感じでずらずらと これ ゴジとか も含んでるんだけど 同じ文章が
繰り返されてる感があるんだけど 多分 最終的に成形されると思うん
だよな 成形されなかったら 今回 のボツになると思うので 最後 録音
停止っていうボタンを押したときに 普通にさっき言った 実際に投稿
するときに役立つもの 概要欄 に入れるようなものとか その画面
もスクショして載せようと思う ので 何も失敗しなければ なんか
わけやからエラー出て台無しになる こともあるから これを聞くこと
ができた人は 違う 音声データ やばい ちょっと録音してなかった
何やってんだ どうしよう 言ってる 意味分かるでしょうか 録音を別
でしておいて 別撮りしておいて このリアルタイム文字起こしで
やるつもりだったんだよね 音声 データ WebMだか何だか その形式
のなんとかするしかないね 変換 したりすれば 音質が悪かろう
が 配信には フォドキャストには 流せるはずだよな 多分 ちょっと
そこもやってみます だから 聞け たら 今回聞けたら その形式だ
と思ってください 拡張し何だっけ な WebMじゃなかったっけな だから
音質はチラッと聞いた感じ 別に 特別悪いような気もしなかったん
だけど ちゃんと比べたら劣化 してんのかな ということで 今回
はGoogle AI Studioで フォドキャスト 用のツール テストしてみたという
話でした こんな形で フォドキャスト に絡み合うような話題 いろんな
話題 機材 機材としても高いもの とかは使ってないのであれだけど
むしろ これから始まる人とか 安い 機材 逆にどうなのみたいな
思う人にはいいんじゃないかな とは思います そのほか フォドキャスト
周りの最新情報 あんま置いてない けど そういうのに触れるときも
あると思うし まさしく今回みたいに ある意味では メインの聞くまとめ
という番組の裏側的なところを 話す感じにもなると思うので
今 使っている 今日試したツール っていうのは 当然 聞くまとめ
のほうでも順次というか 今後 使っていこうとしてるものなので
ということで 今回は以上となります よかったらフォローなどお願いします
さよなら
08:14

コメント

スクロール