2025-05-19 22:32

852🎙️アナログAI、卵が先か鶏が先か?音声公開▶︎文字起こし要約テキスト▶︎記事から自動ポッドキャスト配信▶︎NotebookLM▶︎Elevenlabsボイスチェンジャー機能2種▶︎+映像でAIクローン

Google Pixel 7a+Fifine K688で音声収録テストです。ピクセルのレコーダーのリアルタイム文字起こし機能試しています。文字起こしデータは後ほどnoteへ掲載予定。


🔗note AI素材、卵が先か鶏が先かりGoogle Pixelレコーダー「文字起こし」精度チェック用。|Koukichi_T

https://note.com/koukichi_t/n/n22550fe05bb0


目次

収録環境(Pixel 7A, K688)。ピクセルでの文字起こしデータ確認

WordPressでのポッドキャスト配信とブログの連携

ブログ記事から自動でポッドキャスト配信(Amazon Polly)

AIを活用した音声コンテンツの展開(NotebookLM/Elevenlabs)

音声収録のテストと今後の展開


✅️使用機材

🎙️Fifine K688 

Amazon https://www.amazon.co.jp/dp/B0BK49VSMD/?tag=kt_podcast-22

楽天 https://a.r10.to/hRfVPj

AliExpress https://s.click.aliexpress.com/e/_ol07z9

✅関連記事 | 声に偏る世界線

Spotify for Creatorsスマホアプリで説明文がリッチテキスト編集対応!リンク挿入も!PC版(ブラウザ)も編集がしやすくなった!

▶︎ https://podcast.koukichi-t.com/2025/05/19/spotify-for-creators-update-mobile-app-rich-text-description/


📎まとめ:YouTube収録/ポッドキャスト/ライブ配信関連機材

https://www.amazon.co.jp/shop/kt.pics/list/KUI7D4JMYJF6

✅️使用アプリなど

音声編集:Adobe Audition

https://prf.hn/l/eOz1Vdo/

動画編集:Adobe Premiere Pro

https://prf.hn/l/0eQV8V1/

全部入りCreative Cloud 

https://prf.hn/l/G9Ja5D5/

--


✅️買ったやつ。ガジェット関連おすすめなどまとめ

Amazonマイストア

⁠⁠⁠https://www.amazon.co.jp/shop/kt.pics

Amazonの新機能です。楽天ルームみたいなかんじのやつ。

カテゴリ分けして載せてるので、気になるものあればコメントなどもらえたらポッドキャスト内で紹介します


--


✅️関連SNS

ブログ

⁠⁠https://koukichi-t.com/

Twitter(X)ポッドキャスト用

https://x.com/kiku_matome

Twitter(X)中の人

https://x.com/Koukichi_T


✅️YouTube

ガジェット本音レビューチャンネル

https://www.youtube.com/channel/UCZzl7IurT1V8-HPrF0S07GQ

SNS関連情報チャンネル

https://www.youtube.com/channel/UCkDwn4gZY8VYHAxCkHynTWw


--


この番組はkoukichi_tが、SNS、エンタメ、ガジェットの話題を余談だらけで紹介していくポッドキャスト、まとまらなくてもまとめ「聞くまとめ」です。倍速再生、ながら聞きで情報収集に活用してください⁠⁠

※アフィリエイト広告リンク含みます⁠

以下でも聞けます!「聴くまとめ」で検索!

Apple Podcast/Amazon/YouTube/Spotify

サマリー

このエピソードでは、音声収録とその文字起こし機能についての実験が行われ、AIサービスの進化とその影響が考察されています。具体的には、Google Pixel 7aやAquaVoiceなどの技術を用いて、リアルタイムで音声データを扱う利点や課題が探られています。また、ノートブックLMを利用した音声データの処理方法や、11LABOを活用したボイスオーバー機能についても詳しく話されています。音声とテキストの連携を通じて新しいコンテンツの創出方法についても探求されています。

音声収録のテスト
こんにちは。2025年5月19日、昼頃の収録です。
今回はちょっとテストも兼ねて、久しぶりにスマホで収録しています。
一応今使っているのが、Google Pixel 7a。
はい、こちらと、Fifine K688。スマホとマイクを、USBマイクを接続して、で収録をしています。
使っているのが、Pixel 7a搭載のレコーダーアプリ。
前からこれ時々触れていたけど、文字起こし機能もPixelって同時にできて、
これが、まあ、その機能が付いた当時の話で言うとめちゃくちゃ精度がいいっていうのと、
あと、かなり速い速度で話しても、ちゃんと文字起こしをしてくれるっていう印象でいました。
そんなに頻繁に使うことはなく、何年も経過して、今また試している感じなんだけど、
ちょっと前にも音声配信専用の、声に偏る世界線の方でもこの件は触れたんだけど、
そう、でちょっとまあ今回は収録の話というか、ざっくりこの音声のテスト、音質のテストっていうのと、
はい、このK688とAndroidでっていうところと、もう一点が、今同時に文字起こしをしています。
そのレコーダーアプリで音声というのと同時にもちょこちょこガツガツ進んでいっているので、
タイムスタンプも入ってくれる。
で、まあここの重要なのが、今ってさ、AIのサービスとかで、この文字起こしとかなんて簡単にできると思うけど、
とはいえ文字起こしなんだよね。
いろいろさ、例えば議事録とかもそうだけど、議事録は性質が全然違うからあれだけど、
例えば最近言っていた音声入力とかもそうなんだけど、リアルタイムで手に入れるっていうところが、
まあ重要というか重要視しているところが個人的なポイントとして多くて、
例えば音声入力なんてまあまあそのままじゃん。議事録とかとはわけが違う。
まあ議事録だと同じ使い方しようと思えばできるかもしれない、いやできないよね。
この前言ったみたいに、スマホの音声入力みたいに対象が何であれ、
音声入力で同じツールからアクセスできるっていうのが重要。
つまりパソコンで言ったらウェブブラウザの例えばアドレスバーだろうが、
ツイートの投稿画面だろうが、インスタの画面だろうが、
あと例えばPhotoshopのテキスト入力欄、例えば文字を打つための、
そう、とかだろうが音声入力ができるっていうのが強みというかメリットとして、
Windows標準の音声入力とかもしくはさっき触れていたAquaVoiceってものを使っています。
これが例えばいくら精度が高かろうが議事録のサービスとかでさ、
それじゃ意味をなさないじゃん、俺の用途としては。
音声入力の精度と利便性
そういう意味合いも含めて最近音声入力ってところの精度が高いものとして
AquaVoiceの話をしていたんだけど。
今回の文字起こしもある種、こっちは議事録のツールとかでも構わないか。
とりあえずさ、よくあるパターンとしてPodcasterとかが使うものとしては、
音声を収録した上でその音声データから文字起こしをして、
それを流用というか文字起こしデータとして使ったりとかブログに流用するとかさ、
そういうやり方をすると思うけど、
個人的には収録が完了した時点で既にデータが入っていないと嫌な感じなので、
特に今後に偏る世界線の方はワードプレスから配信をしていて、
音声配信イコール記事も同時に公開する形になります。
その記事のページ上で音声の再生ができる。
これはプラットフォームでも配信をしているんだけど、
同時にブログを更新するのと同時にブログ上で音声が聞けるようになり、
プレイヤーが表示されてPodcastが聞けます。
そして自分で登録したApple Podcast、Amazon Podcast、Spotifyでも
普通のPodcastと同じように聞けるようになっています。
その状態で記事上に音声の文字起こしデータを表示して
眺めてもらえるようにしています。
そういうことを今の時代だったらAIが発達しているから
それこそやってる人とかってのも多いと思うんだけど、
それを後々文字起こしとかするんじゃなく
リアルタイムで手に入れた方がいろいろ作業が楽じゃん。
しかも精度が高ければ。
というところで再びピクセルのレコーダーを試しているというところです。
とはいえ音声収録するときにスマホ側の録音スタートするのは
手間は手間なのでどっちがいいとも言い切れないんだけど、
ぶっちゃけパソコンでどうせパソコンでやるんであれば
音声編集を多少ないともちょっとでもしてとかであれば
PCで録音し終わったデータを文字起こしさせてのほうが
そのほうがスムーズなのかもしれないしとも思うんだけど。
そんなところで。
テキストと音声データの関係
ただね、本当にこのサービスこのサービスそれぞれメリットデメリットあるからさ。
そう考えたときに結構手軽だったと思うんだよな。
ブログ上で表示する字幕って別に形式はどうでもいいわけで
そのプラットフォーム側に渡す字幕データとして渡すって感じではないので。
ワードプレスのプラグインで今俺がやってることに関しては
字幕データをプラットフォーム側に渡してそれを表示するっていう機能もついてはいるんだけど
それよりもブログ上で文字を見せるっていう方を優先したいなってところで
そうなったときに軽くでもタイムスタンプって入ってたほうがいいかなと思うんだよね。
これって別にタイムスタンプ入れてって入れてくれることのできるAIとかって山ほどあるけど
別に特化したAIじゃなくて何だっていいじゃん。
ジェミーだっていいしノートブックでもだってできるんだけど
なんかAIにありがちなデタラメなことしてくるケースが割とあって
タイムスタンプ入れる系とかに関しても。
なんかうまくいってないなって。
きちんとこれでいけるって決めた形で今後これを使おうとかっていうほど
カッチリしてやっているものじゃないので
本当にサービスもあふれてるからちょっとじゃあ今回こっち試してみようとか
今回こっちって思ってやってみるとなんかうまくいかなかったりとか
っていう中このPixelの文字起こしはもう分かりやすいなと思って
今回とかは特に録音自体をこのレコーダーで撮って
それをそのまま公開しようとしているので
本当に分かりやすいんだけどその間に文字起こしすごい勢いでされています。
ここにタイムスタンプが時々入っている。
一文が一段落として結構な文章量はずらーっと書かれて
一定のタイミングで段落変わってそこにタイムスタンプが入っているみたいな感じになっています。
普段だったら普通にPC側でやるときはPCで音声も収録するので
そこと並行してスマホの方も録音ボタンを押すっていう感じなので
なんかねそれはしっくりこないんだけど今回のが一番いい形なのかも。
あとは言っても最近だと特に聞くまとめに関してはビデオポッドキャストをメインというか基本としているので
スマホで録音というわけにもいかないからあくまで
やるんだったらビデオポッドキャストを撮りながら
ピクセルでも録音ボタンを押して文字起こしさせてみたいなことになるので
聞くまとめの方は別に文字起こしデータなんて
なんか使うとしても聞くまとめは別にリアルタイムじゃなくてもいいので
今回は本当にテストとしてやってる感じです。
こういうにかたより世界線はピクセル使うとかだったらスムーズかなと思ってるんだけど
そのブログ上にテキストデータを出すっていう感じなので
なんかねノートブックLMの時に話したかもしれないけど
うまく考えまとまらずにこのまま話したけど
なんか卵が先か鶏が先か問題
素材元素材になるものがどれなのかみたいなのがもうよくわかんなくなってきていて
例えば今こういうふうに収録してることに対して何ができるかっていうと
もともともう4年前からやっていたこととして
えーと違うな
ちょっと今この音声をこういうふうに収録して文字起こしデータを今取得します
でこの文字起こしデータをさ
まあなんか要約してもらってブログ記事風にするとかなんたら一般的にあるじゃん
と文字起こしデータをそのまま読んでもらうために掲載するっていうパターン
これも二つ手に入るでしょ
でこれの場合は今回の場合は
俺が今喋ってるこの声が元の素材になるわけで
対して全く別のものとしてその4年前からもうすでに始めていたものとして
ブログの記事を書いて公開した時点で勝手に音声データが
Amazon Pollyっていう
AIっていう言い方すると違うのかな
まあAIっていう曲にするか
まあ音声の読み上げだよねテキストとスピーチ
Amazonのポリーってものが勝手に読み上げてくれて
ブログ上で再生できるようにしてあります4年前に
さっきの話とは全く別ですさっきの
あのワードプレス上で音声ファイルを公開する
ポッドキャストを公開するって話とは全く別件で
はいもともと使っていた好奇心Tっていう
あのSNSの情報とか散々投稿していたブログ内で記事を書くと
もう音声が勝手にしてくれる俺は何もすることがない
ただ記事を投稿するだけでもうブログ内の記事の
テキストも勝手に音声にしてくれます再生プレイヤーを
表示しておくこともできるしでなおかつ勝手に
RSSフィードを作成してくれるので事前に登録しておいた
AppleポッドキャストSpotifyAmazonポッドキャストとか
そこら辺でも聞けるようになりますっていう状態で
ずっと続いていますでもなんかあの重量課金で
お金発生してしまうものだからあのちょっと
今あんま分かってなかったけどすごい大金かかるわけじゃないんだけど
あの聞かれた回数とか
そういうところ依存の重量課金ではなくあくまで
文字起こしじゃないなテキストというスピーチ
読み上げさせた文章量
更新したタイミングで読み上げさせた文章量で
決まるらしいので料金に関した
更新しなきゃお金はかかんないしっていうだけの話なんだけど
そうだからね本当にね何の意識もすることなく
まあそういう風にどんどんどんどんポッドキャストが
されていくって状況ありますでここで考えたときにさ
今回の今言った話はさ元の素材になるものは
テキストになるわけじゃん
ブログに載せたテキストが素材でそこから音声が発生するわけでしょ
そうだからこれで2パターン目じゃん
2パターン目3個目になるかな
大きく分けて音声スタートのものからテキスト化っていうのの
1パターンそして今言った方のテキストから
音声が発生するっていう2パターン目でこのさ
2パターン目のさテキストから音声っていうものに関してはさ
最近のAIのこのここ数年の長いで言えばさ
それはいくらでもやり終わるじゃんでも4年前の段階でも
そのAmazonポリってものを使えばもう俺がやる前からさ
やってた人なんてたくさんいてそこの情報をもとに
当時AIとかもさ今みたいに発達してないから
他の人が書いてくれた記事とかそういうものをもとに
試してできるようになったことなわけだけど
そうでねなんか今その2つが微妙に
くっついて使うこととかもあったりして
なんて言うんだろうな例えば俺がこうに
ポッドキャストを配信しますこの聞くまとめで
でこの音声データ文字起こしデータとかから
要約して記事を作るじゃんで記事を作って
あれだね俺の場合さ特にさダラダラダラダラ
話してるからあんまりまとまりきっていないもの
要点を得ないようなものになっていると思うんだけど
これを文字起こしデータから要点まとめて記事作るじゃん
普通にで記事化したものをその
koukichi.comにブログ記事として投稿する
そうするときっちり
ちゃんときれいにまとまった文章として
Amazonポリーの音声がAIが読み上げてくれる
ものがポッドキャストの
音声データとして全く別で流れていくわけだね
と言ってもあんまりちゃんとできてないんだけど
読み上げなくていい場所がさ余計なところが読み上げられて
無駄に時間取られちゃったりとかもあるから
ぜひ聞いてみてくださいと言えるようなものではないんだけど
ただ何か再生されてるんだよね
ちゃんと全部聞いてる人がいるのかわからないけど
すごい数ではないんだけど一応再生してくれてる人
いるんだなぐらいの程度なんだけど
これで大きく分けて2つじゃん
鶏が先か卵が先か
みたいな状況になっていて
そこにノートブックLMとか絡むと
ノートブックLMの活用法
ちょっともうわけわかんないことになってくるんだよね
ノートブックLMに関してはさ
音声データでもいいだろうしブログでもいいし
俺の今言った2パターンどっちも素材にした上で
2人の男女の形式で会話をするって形になるわけじゃん
で新たなものが生まれるわけでしょ
そこで生まれたものっていうのは
より客観視してくれた
視聴者層に刺さるであろう受け答え
疑問に対しての回答みたいな感じ2人でやり取りしてくれるわけで
それを元に
もうちょっと新しく発展させたりもできるわけじゃん
元々の素材よりも
そこからまた新たなものが生まれちゃうし
さらに言うと言っていくと本当にキリはないんだけど
そのノートブックLMの音声そのまま公開したっていいだろうけど
それを11LABOとか使えば
11LABOでそのノートブックLMの音声を
加工する方法って何パターンかあるんだけど
1パターンはボイスオーバーってものを使うと
これ有料機能じゃなきゃ使えないかな
それを使うと自分が録音して元々自分の声で登録しておけます
テキストトゥスピーチで
テキスト打ったものを自分の声で喋らせることもできるんだけど
これはイントネーションとかひどくてほぼ使い物にならないんだけどぶっちゃけ
高音質版有料版で3000円くらいかかるやつ月額の方に
久しぶりに試したんだけどお話にならないわ
高音質化するのはするんだけど
2時間分くらい音声データがアップロードできるので
イントネーションとかも直るのかなとかそういうことかと思ったら
イントネーションとか全く改善されず多少は違うのかもしれないけど
ちょっと腹立ったんだけどむしろ音質は上がるんだよね
なんで音質が上がるかっていうと
月額3000いくら分くらいの
20何ドルくらいのやつじゃない下のプランだと
6ドル8ドルとか買ったあと無料があるのかな
そちらとね
アップロードできる音声のファイルの形式なんだか
録音をその場でしたものしかダメなんだか
単純に音質が悪い状態でしか
再生自体ができないみたいな感じなのかな
ちょっとよくわからんけど
つまりは音の質聞こえ方が良くなっただけであって
イントネーションとか変わってないの
もちろん有料版で使える機能ってのもいっぱいあるから
あのサービスね
昔2,3年前のさいきなり英語で
英語でポッドキャスト配信
みたいな言ったのももう2,3年前だね
時にやった時も有料課金したんだけど
変わってんだけど結局日本語ダメだなっていうところが
もうダメで今回も改めて試して
ずっと6ドルか8ドルのプランを使ったんだけど
その中で多分有料機能だと思う
ボイスオーバーっていうのがあって
元々存在している音声に自分の声を被せるみたいな感じ
元の音声の上に被せる感じだから
その元の音声に引っ張られるんだよね
声質が
フォトショーとかそういうのを使う人とかだと
この言い方が正確かわからないけど
スクリーンとか乗算とか
オーバーレイとか
スクリーンだと明るくなったり乗算だと暗くなったり
下に存在している写真とかに対して
上に乗っける時にかける効果なんだけど
これ以上説明できないな
音声版のそういう感覚を受けるんだよね
写真で言ったら多重露光的な感じか
どんどんおかしな言い方をしてる気もするけど
元の音声の声質に依存してそこにあくまで
自分の俺の声質を乗せるだけだから
喋り方としてはパーフェクトなんだけど
例えばノートブックLMの音声で
結構いい感じに喋ってくれてるじゃん
あそこに俺の声を乗っけられる
ただ声質は
元の声質に俺の声を無理やり乗っけるだけだから
なんか変にはなるんだよね
喋り方としては滑らかだけどっていう感じ
ノートブックLMから11Labを使うのでできて
もう一パターンあるのは
明確じゃないんだけど
ノートブックLMが
話し方とかがうまいっていうところもあるから
口調とかってより文章の構成とかも含めて
これを台本として使いたいと思った場合に文字起こしをまずします
文字起こししたものを和写別に分けたものを
11Labの中のスタジオみたいなやつかな
そこに和写を分けた状態で
テキストデータをアップロードすると
そこに11Lab内の
音声データを割り当てることができます
つまり例えば俺自身の声登録したもの
さっき言った結局有料版高い方にしても
音質が良くなっただけでイントネーション変わんねえじゃん
みたいに言った
俺の声が実際あるんだけどKTってものがあったとして
その和写AB
ノートブックLMの男女いるじゃん
例えば男のキャラに俺を設定する
そしてもう一人はカスタムでオリジナルのキャラとかも作れるので
作った女キャラ
それを和写Bに割り当てる
ノートブックLMで言う男が俺の声
ノートブックLMの女の声が
今のカスタムの女のキャラ
それに合わせて交互に話してくれる
この2パターンができる
俺の声をまんまかぶせるものと変にはなる
もう一個は今言った和写を
別に俺の声じゃなくてもいいんだけど
みんなが公開しているものの声を使うこともできるし
色んなやり方ができるんだけど
元々言ってた自分の俺自身の声をベースに
11LABOのボイスオーバー機能
それを文字起こしして別の使い方をする
ブログ化する
テキストで記事を書いたものを
アマゾンで音声化して
これが2パターンでしょ
そこから音声もテキストレーターも使って
ノートブックLMでコンテンツを作り
それをさらに声を置き換えて
11Labからというパターンで
音声で発展するわけじゃん
さらに別の次元に持っていくとなったら
AIクローン的に見た目に関しても
いじれるものってあると思うけど
あんまそこ詳しくないけど
ヘイジェンみたいなのとかそうだよね
ヘイジェン?ヘドラ?ヘドラじゃないっけ
読み方はっきりわからないな
色んなサービス切りなくなると思うけど
あとあれかDIDだっけか
一気に広まったけど
結構昔の俺触れてたんだよな
そう
めっちゃ膨らんだな
目的はマイク久しぶりに
スマホとK688のセット
アンドロイドで録音ってあんまないので
iPhoneと変わるものなのか
そこのチェックと文字起こしもずっと続いてます
すでに19分だけどずっと文字起こししてる
すごいよね
今回は目的を見失ってる感はあるけど
試してみたかっただけです
その手で予告編みたいなことにしようかな
って思ってた節もあったんだけど
結局こういう話になってしまった
タイトルを何にするかだね
先に決めてないから
ちょっと公開しようと思います
聞くまとめで配信する体になっちゃってるけど
この内容的には声に偏る世界線だな
どうしようか
聞くまとめに今回の音声は公開します
そして
文字起こしのデータに関しては
あっちにあげるか
リンクを貼ります
文字情報は収まらないと思うので
ポッドキャストの概要欄では
文字数オーバーで圧倒的に19分分の文字起こしたもんね
一旦手を加えないであげるので
手を加えてないバージョンと手を加えたバージョンって作ればいいかな
ノートにでもあげるか
それもありかな
リンクを貼るので概要欄
今回の中で触れたっけ
いじりやすくなったので
スマホからスポーティファイ4クリエイターズから
アップしてみようかな
あんまり音がひどいとかなければ
今できるようになってスポティファイが変わって
音声とテキストの融合
一番いいのが
今スマホで収録して
過去だったらスマホでせっかく撮ってるのに
一旦PCに行かなきゃダメでした
スポティファイ4クリエイターズって
公開用のアプリがクソすぎるから
割り切って使うならできるんだけど
説明欄がただのテキストしか打てなかった
打てなかったよね
もうダメだって思ってるからずっと触ってなかった
できるようになったのかな
今はブログを書くみたいな感じでリンクを設置したり
HTML構造を持っているデータから
スマホでもいけると思うんだよね
リンクを貼ってある状態の
ブログの記事とかをコピペして
いけるんじゃないかな
今回スマホからアップするにあたっても
もともといつも使っているPC版でコピペしている
概要欄用のやつ
それもスマホから設置していけると思うので
その件に関しては
グダグダだけど恋に偏る世界線の方が触れているので
そこもリンクは貼っておきます
文字起こし頑張ってくれている22分
これも合わせて気になる人は
ぜひチェックしてみてください
さよなら
22:32

コメント

スクロール