こんにちは。2025年5月19日、昼頃の収録です。
今回はちょっとテストも兼ねて、久しぶりにスマホで収録しています。
一応今使っているのが、Google Pixel 7a。
はい、こちらと、Fifine K688。スマホとマイクを、USBマイクを接続して、で収録をしています。
使っているのが、Pixel 7a搭載のレコーダーアプリ。
前からこれ時々触れていたけど、文字起こし機能もPixelって同時にできて、
これが、まあ、その機能が付いた当時の話で言うとめちゃくちゃ精度がいいっていうのと、
あと、かなり速い速度で話しても、ちゃんと文字起こしをしてくれるっていう印象でいました。
そんなに頻繁に使うことはなく、何年も経過して、今また試している感じなんだけど、
ちょっと前にも音声配信専用の、声に偏る世界線の方でもこの件は触れたんだけど、
そう、でちょっとまあ今回は収録の話というか、ざっくりこの音声のテスト、音質のテストっていうのと、
はい、このK688とAndroidでっていうところと、もう一点が、今同時に文字起こしをしています。
そのレコーダーアプリで音声というのと同時にもちょこちょこガツガツ進んでいっているので、
タイムスタンプも入ってくれる。
で、まあここの重要なのが、今ってさ、AIのサービスとかで、この文字起こしとかなんて簡単にできると思うけど、
とはいえ文字起こしなんだよね。
いろいろさ、例えば議事録とかもそうだけど、議事録は性質が全然違うからあれだけど、
例えば最近言っていた音声入力とかもそうなんだけど、リアルタイムで手に入れるっていうところが、
まあ重要というか重要視しているところが個人的なポイントとして多くて、
例えば音声入力なんてまあまあそのままじゃん。議事録とかとはわけが違う。
まあ議事録だと同じ使い方しようと思えばできるかもしれない、いやできないよね。
この前言ったみたいに、スマホの音声入力みたいに対象が何であれ、
音声入力で同じツールからアクセスできるっていうのが重要。
つまりパソコンで言ったらウェブブラウザの例えばアドレスバーだろうが、
ツイートの投稿画面だろうが、インスタの画面だろうが、
あと例えばPhotoshopのテキスト入力欄、例えば文字を打つための、
そう、とかだろうが音声入力ができるっていうのが強みというかメリットとして、
Windows標準の音声入力とかもしくはさっき触れていたAquaVoiceってものを使っています。
これが例えばいくら精度が高かろうが議事録のサービスとかでさ、
それじゃ意味をなさないじゃん、俺の用途としては。
そういう意味合いも含めて最近音声入力ってところの精度が高いものとして
AquaVoiceの話をしていたんだけど。
今回の文字起こしもある種、こっちは議事録のツールとかでも構わないか。
とりあえずさ、よくあるパターンとしてPodcasterとかが使うものとしては、
音声を収録した上でその音声データから文字起こしをして、
それを流用というか文字起こしデータとして使ったりとかブログに流用するとかさ、
そういうやり方をすると思うけど、
個人的には収録が完了した時点で既にデータが入っていないと嫌な感じなので、
特に今後に偏る世界線の方はワードプレスから配信をしていて、
音声配信イコール記事も同時に公開する形になります。
その記事のページ上で音声の再生ができる。
これはプラットフォームでも配信をしているんだけど、
同時にブログを更新するのと同時にブログ上で音声が聞けるようになり、
プレイヤーが表示されてPodcastが聞けます。
そして自分で登録したApple Podcast、Amazon Podcast、Spotifyでも
普通のPodcastと同じように聞けるようになっています。
その状態で記事上に音声の文字起こしデータを表示して
眺めてもらえるようにしています。
そういうことを今の時代だったらAIが発達しているから
それこそやってる人とかってのも多いと思うんだけど、
それを後々文字起こしとかするんじゃなく
リアルタイムで手に入れた方がいろいろ作業が楽じゃん。
しかも精度が高ければ。
というところで再びピクセルのレコーダーを試しているというところです。
とはいえ音声収録するときにスマホ側の録音スタートするのは
手間は手間なのでどっちがいいとも言い切れないんだけど、
ぶっちゃけパソコンでどうせパソコンでやるんであれば
音声編集を多少ないともちょっとでもしてとかであれば
PCで録音し終わったデータを文字起こしさせてのほうが
そのほうがスムーズなのかもしれないしとも思うんだけど。
そんなところで。
ただね、本当にこのサービスこのサービスそれぞれメリットデメリットあるからさ。
そう考えたときに結構手軽だったと思うんだよな。
ブログ上で表示する字幕って別に形式はどうでもいいわけで
そのプラットフォーム側に渡す字幕データとして渡すって感じではないので。
ワードプレスのプラグインで今俺がやってることに関しては
字幕データをプラットフォーム側に渡してそれを表示するっていう機能もついてはいるんだけど
それよりもブログ上で文字を見せるっていう方を優先したいなってところで
そうなったときに軽くでもタイムスタンプって入ってたほうがいいかなと思うんだよね。
これって別にタイムスタンプ入れてって入れてくれることのできるAIとかって山ほどあるけど
別に特化したAIじゃなくて何だっていいじゃん。
ジェミーだっていいしノートブックでもだってできるんだけど
なんかAIにありがちなデタラメなことしてくるケースが割とあって
タイムスタンプ入れる系とかに関しても。
なんかうまくいってないなって。
きちんとこれでいけるって決めた形で今後これを使おうとかっていうほど
カッチリしてやっているものじゃないので
本当にサービスもあふれてるからちょっとじゃあ今回こっち試してみようとか
今回こっちって思ってやってみるとなんかうまくいかなかったりとか
っていう中このPixelの文字起こしはもう分かりやすいなと思って
今回とかは特に録音自体をこのレコーダーで撮って
それをそのまま公開しようとしているので
本当に分かりやすいんだけどその間に文字起こしすごい勢いでされています。
ここにタイムスタンプが時々入っている。
一文が一段落として結構な文章量はずらーっと書かれて
一定のタイミングで段落変わってそこにタイムスタンプが入っているみたいな感じになっています。
普段だったら普通にPC側でやるときはPCで音声も収録するので
そこと並行してスマホの方も録音ボタンを押すっていう感じなので
なんかねそれはしっくりこないんだけど今回のが一番いい形なのかも。
あとは言っても最近だと特に聞くまとめに関してはビデオポッドキャストをメインというか基本としているので
スマホで録音というわけにもいかないからあくまで
やるんだったらビデオポッドキャストを撮りながら
ピクセルでも録音ボタンを押して文字起こしさせてみたいなことになるので
聞くまとめの方は別に文字起こしデータなんて
なんか使うとしても聞くまとめは別にリアルタイムじゃなくてもいいので
今回は本当にテストとしてやってる感じです。
こういうにかたより世界線はピクセル使うとかだったらスムーズかなと思ってるんだけど
そのブログ上にテキストデータを出すっていう感じなので
なんかねノートブックLMの時に話したかもしれないけど
うまく考えまとまらずにこのまま話したけど
なんか卵が先か鶏が先か問題
素材元素材になるものがどれなのかみたいなのがもうよくわかんなくなってきていて
例えば今こういうふうに収録してることに対して何ができるかっていうと
もともともう4年前からやっていたこととして
えーと違うな
ちょっと今この音声をこういうふうに収録して文字起こしデータを今取得します
でこの文字起こしデータをさ
まあなんか要約してもらってブログ記事風にするとかなんたら一般的にあるじゃん
と文字起こしデータをそのまま読んでもらうために掲載するっていうパターン
これも二つ手に入るでしょ
でこれの場合は今回の場合は
俺が今喋ってるこの声が元の素材になるわけで
対して全く別のものとしてその4年前からもうすでに始めていたものとして
ブログの記事を書いて公開した時点で勝手に音声データが
Amazon Pollyっていう
AIっていう言い方すると違うのかな
まあAIっていう曲にするか
まあ音声の読み上げだよねテキストとスピーチ
Amazonのポリーってものが勝手に読み上げてくれて
ブログ上で再生できるようにしてあります4年前に
さっきの話とは全く別ですさっきの
あのワードプレス上で音声ファイルを公開する
ポッドキャストを公開するって話とは全く別件で
はいもともと使っていた好奇心Tっていう
あのSNSの情報とか散々投稿していたブログ内で記事を書くと
もう音声が勝手にしてくれる俺は何もすることがない
ただ記事を投稿するだけでもうブログ内の記事の
テキストも勝手に音声にしてくれます再生プレイヤーを
表示しておくこともできるしでなおかつ勝手に
RSSフィードを作成してくれるので事前に登録しておいた
AppleポッドキャストSpotifyAmazonポッドキャストとか
そこら辺でも聞けるようになりますっていう状態で
ずっと続いていますでもなんかあの重量課金で
お金発生してしまうものだからあのちょっと
今あんま分かってなかったけどすごい大金かかるわけじゃないんだけど
あの聞かれた回数とか
そういうところ依存の重量課金ではなくあくまで
文字起こしじゃないなテキストというスピーチ
読み上げさせた文章量
更新したタイミングで読み上げさせた文章量で
決まるらしいので料金に関した
更新しなきゃお金はかかんないしっていうだけの話なんだけど
そうだからね本当にね何の意識もすることなく
まあそういう風にどんどんどんどんポッドキャストが
されていくって状況ありますでここで考えたときにさ
今回の今言った話はさ元の素材になるものは
テキストになるわけじゃん
ブログに載せたテキストが素材でそこから音声が発生するわけでしょ
そうだからこれで2パターン目じゃん
2パターン目3個目になるかな
大きく分けて音声スタートのものからテキスト化っていうのの
1パターンそして今言った方のテキストから
音声が発生するっていう2パターン目でこのさ
2パターン目のさテキストから音声っていうものに関してはさ
最近のAIのこのここ数年の長いで言えばさ
それはいくらでもやり終わるじゃんでも4年前の段階でも
そのAmazonポリってものを使えばもう俺がやる前からさ
やってた人なんてたくさんいてそこの情報をもとに
当時AIとかもさ今みたいに発達してないから
他の人が書いてくれた記事とかそういうものをもとに
試してできるようになったことなわけだけど
そうでねなんか今その2つが微妙に
くっついて使うこととかもあったりして
なんて言うんだろうな例えば俺がこうに
ポッドキャストを配信しますこの聞くまとめで
でこの音声データ文字起こしデータとかから
要約して記事を作るじゃんで記事を作って
あれだね俺の場合さ特にさダラダラダラダラ
話してるからあんまりまとまりきっていないもの
要点を得ないようなものになっていると思うんだけど
これを文字起こしデータから要点まとめて記事作るじゃん
普通にで記事化したものをその
koukichi.comにブログ記事として投稿する
そうするときっちり
ちゃんときれいにまとまった文章として
Amazonポリーの音声がAIが読み上げてくれる
ものがポッドキャストの
音声データとして全く別で流れていくわけだね
と言ってもあんまりちゃんとできてないんだけど
読み上げなくていい場所がさ余計なところが読み上げられて
無駄に時間取られちゃったりとかもあるから
ぜひ聞いてみてくださいと言えるようなものではないんだけど
ただ何か再生されてるんだよね
ちゃんと全部聞いてる人がいるのかわからないけど
すごい数ではないんだけど一応再生してくれてる人
いるんだなぐらいの程度なんだけど
これで大きく分けて2つじゃん
鶏が先か卵が先か
みたいな状況になっていて
そこにノートブックLMとか絡むと