1. なおくんのラジオ遊び
  2. #2379 【雑談】音声の情報量は..
2024-02-24 12:01

#2379 【雑談】音声の情報量はすごい from Radiotalk

#2379 【雑談】音声の情報量はすごい
・音声配信の内容をテキスト化したい
・12分のトークだけでもすごい分量…
・Googleドキュメントの音声認識とChatGPT
・話し言葉をテキスト化する際に面倒なこと
・その1: 音声を文字にすること
・その2: 誤変換やムダ言葉を修正すること
・その3: 話し言葉ならではの言い回しを整える
・しかし、これらをテクノロジーが解決してくれた
・スタエフのAI文字起こし機能※
・12分のトークは原稿用紙9枚分?!
・なぜ音声だと長い文章量でも聴けてしまうのか

(注記)

※後で調べたら、summaryFMの機能は、2023年12月で終了してるみたいです。
(ソース: https://audiostart.info/2023/12/06/symmaryfm-close/)


※スタエフの音声をnote記事にするのではなく、noteの記事をAI音声にするというサービスでした。うろ覚えのまましゃべってしまい申し訳ないです。これもサービス終わってるかもなので、興味ある方はご自身で調べてみてください。

(✔︎noteの記事URLから、AIが読み上げた音声コンテンツをかんたんに作成できるようになりました。|stand.fm(スタンドエフエム)【公式】
https://note.com/standfm/n/n29f8596496d9 )

参照リンク
✔︎255AIに聞き取りやすい話し方
#オタママさんといっしょ
https://radiotalk.jp/talk/1135494

✔︎ラジオトークの収録をブログ記事にする方法
#なおくんのラジオ遊び
https://radiotalk.jp/talk/966853

#202402n
00:00
はい、お疲れ様です。なおくんです。今回のテーマはこちらです、とどん。
音声の情報量はすごい。よいしょー。
はい、このようなテーマで話していきたいと思います。よろしくお願いします。
今日は2024年の2月24日土曜日でございます。はい、あっという間に2月もね、もう終わりが近づいてきておりますけれども、
今年は2月は29まである年ですね、ウルー年。ウルー年がある年はオリンピックイヤーらしいですね。
らしいですね、というか、まあそうなんですよね。このウルー年がある年にオリンピックがあるという、そういう周期でね、地球は回っているようでございます。
ちなみに今年はパリでしたっけ?パリオリンピックですよね。前回が日本でね、日本はコロナの関係で2020年だったものが2021年になったんだけど、
別にその分また2025年になるわけではなくて、オリンピックのそのもともとのその本来のその周期は変わらず、今年オリンピックがあるということなので、
まあえっと僕らの体感的には3年ぶりのオリンピックっていう感じ。ちょっとまたオリンピックみたいな感覚が1年分ちょっと早まっているような感じらしいですね。
はい、まあどうでもいい雑談は挟んでおきましたけど。で、今回のテーマは音声の情報量はすごいなということを改めて思いましたっていう話をしたいと思います。
えっとちょっとさっきね、自分の過去の音声収録をGoogleドキュメントに読み込ませてですね、テキスト化してたんですよね。
そしたらね、あのめちゃくちゃ情報量多いなと思いました。いつも大体は最近の僕の収録トークも12分ギリギリいっぱいまでバーッとしゃべっちゃうんですけど、
それをね文字起こししてちょっとブログにしたいなって思って、それでねGoogleドキュメントでちょっと読み込ませてやるっていうのをやってたんですよね。
ちょっとそれはね別途収録トークでそのやり方について話してるんですけれども、
これ何でしようかと思ったかというとですね、ラジオトーカーさんのニワトリさん、ゆめのニワトリさんがですね、
そんな話をされていたんですね、直近の収録トークで。
でそれを聞いてですね、あそっかラジオトークで話したことを音声認識で文字テキスト化して、
それをこうなんかうまく整えてテキストにしたらいいのかって思って、
でそれをね聞いてたらそのニワトリさんの話を聞いて概要欄を見るとですね、
僕がその話をね昔してたんですよね。
ちょうど1年弱前ぐらいですね、えっと去年の2023年の3月の中旬ぐらいに自分でその話をしてたことをすっかり忘れてて、
なんかあそっか自分のその音声収録を文字にするっていうことになんかハマってた時期あったなって思い出したんですよね。
03:01
でそれを聞いて僕ももう1回ちょっとねそれをやろうと思って、
で自分の収録をその時の収録を聞き直してね、
割れながらめちゃくちゃ分かりやすいなと。
1年前の収録トークで話した内容を自分ですっかり忘れてたんですけど、
それをまた自分でそっちも聞き直してね、またやりたくなってですね。
で自分の直近の収録トークを音声認識で文字起こしさせたんですよね機械に。
これもすごいですよね文字起こしってね、
僕昔あのまだこういう音声認識が全然発達しない頃に自分でその聞いた文字をですね起こすっていうことをね結構好きでやってたんですよ。
僕タイピング結構早いんですよね。
タイピングをその手元を見ずにタイピングするタッチタイピングっていうスキルがあるんですけどそれがめちゃくちゃ早いんですね。
それはなんで早いかっていうと僕はのインターネット例明記にチャットにハマったんですよね。
チャットGPTじゃなくてチャットね、
今でいうLINEで話すみたいなものをパソコン上でやるようなやつなんですけど、
スマホとかガラケーとかがまだそこまでインターネットができない時代ですね。
もうパソコンでインターネットがやるっていうのが当たり前な時代にネット上のネット上の人と会話をするチャットという遊びにはまったんですよね。
でまだ世の中にインターネットやる人なんて本当にもうごくごく一部だったんで、
リアルな人でインターネットやってる人なんかほぼいないっていう時代にもう一部のねパソコンオタクしかやってない時代に見ず知らずの人と画面上で文字で会話をするっていうそういうことをやった時にやっぱりキーボードのタイピングスピードが早くないとね追いつかないですね会話に。
そのためにねあの必死になってタッチタイピングを覚えたんですね。
当時はブラインドタッチっていうふうに言ってましたけどね。ちょっとブラインドっていうのが差別用語になっちゃうので今はタッチタイピングっていうのが一般的ですけど。
なので僕キーボードのタイピング早いんですね。ちょっと話また横道逸れちゃいましたけど。
なのでそれでテレビのなんか音声を一回録音してそれを文字に書き起こすとかですねそういうことをちょっとねやったりしてた時期があって。
それでやってた経験があるので文字起こしってめちゃくちゃ大変なんですよ。それを人間がやると。
でもそれをねこう今だったら音声認識機能をうまく使うことによってこうやって今自分が喋っていることを一瞬で文字起こし化してくれるわけなんですよね。
それだけでもすごいことなんですけれども、とはいえやっぱり文字起こしした文章っていうのはそれでもやっぱり語字っていうか語変換、漢字の語変換であるとか、あとはそのあのとかまあとかそのとかなんとかですねとかっていう口癖っていうんですかね。
そういったあのフィラーともいったりするんですけどもその話し言葉独特のその今そのって言っちゃったけれどもそういうような無駄言葉がめちゃくちゃ入ってるんですよね。
06:09
そういうのを取り除く作業もまためんどくさいんですよ。
なのでそれをですね僕はチャットGPTに遂行させるっていうテクニックを思いついてそれをね。
まあ去年の3月に話してたんですよねでそれをすっかり忘れててでそれを思い出してあのすごい良い方法だなって思ってチャットGPTに遂行させて要約させるっていうそれをすることができればですねだいぶこう喋った言葉をテキストにすると読みやすいテキストになるなっていうふうに思ってねちょっと今実験的にもう一回やり直してみたんですけれどもまあなんかねあの大変ですねそれでもめっちゃ大変。
12分いっぱいいっぱい喋ると相当なテキストの分量になるんですよ。
多分ブログ1記事ではね読めないですねめちゃくちゃ長い文章になりますね。
だから結構あのしんどくて途中でやめちゃいました。
もうなんかね4分ぐらいでも相当な文章量になるんですよね。
っていうことがあったので要は何が意外かというと音声の情報量はすごいんですよ。
この12分ねあのもしこれ聞いてくれる人がいるのであればこの12分の僕が喋った文章の量をねテキストにしたらねどのぐらいあるんですかね。
確か何だっけ3分で普通の人が3分で喋った時に1分間300文字でしたっけ。
ちょっと忘れましたけど1分間300文字だったかな。
だから12分だと3600文字だと原稿用紙に換算すると原稿用紙9枚分ぐらいですかね。
原稿用紙9枚分ぐらいだから12分フルに喋った音声を単純に計算すると原稿用紙9枚分ぐらいなんですかね。
ちょっと計算間違ってるかわかんないですけど原稿用紙9枚書くって相当じゃないですか。
だって小学校のさなんか運動会の感想文を原稿用紙1枚で書ききれない時は2枚書きなさいみたいなそんなノリですよね。
でそれでも結構大変じゃないですか。
だからこうやって毎日12分喋ってたら毎日原稿用紙9枚分ぐらいのトークをしてるわけですよ。
多分ねもっとそれ以上あるんじゃないかなって僕は思いましたねさっき音声の書き起こしをやってた時。
もちろん全部が意味のある言葉ではないんですよ。
やっぱり喋り言葉って無駄がすごい多いんですよ。
あのーとかそのーっていうのもそうだし同じことを繰り返して言ったりとかするので文字にするとめっちゃ読みづらいんですよね。
でこれがさあの聞いてる分には意外と聞けちゃうんですよ。
それは何でかっていうとやっぱり喋り言葉っていうのはスピードであったりとか間であったりとかあと強弱とかですね。
09:08
あとこの伝えたいところを強調するとかあと緩急ですね。
ゆっくり喋るところと早く喋るところを使い分けたりとかしてそういうの自然にやってるのでそういうその文字にできないいろんな情報が含まれているのでそういうのを総合的に聞いてるんですよね。
だから無駄なことが多かったりとか同じことを何度も繰り返したりしても割と聞けちゃうんですよ。
でそれをそのまんまそういった情報を省いてテキストにするとすごく読みづらくなっちゃうんですよね。
だからその辺をうまくAIが整えてくれたら一瞬で読みやすい文章が生成できるのではないかと思いますね。
あとね、去年の3月に僕が自分なりにいろいろ考えてラジオトークで話した音声をテキスト化する方法っていうのを収録トークで話したんですけれども、
そのちょうどね1ヶ月後ぐらいにスタンドFMの方でまさにその時僕がやりたいと思ってたことをスタンドFMの方で実装してたんですよね。
でそれはなんかすごいなと思いましたね。
サマリーFMっていうねそういうサービスだったと思うんですけども、スタイフはねそういうなんかあの自分でやらなくてもスタンドFMで収録したものをそのまんま文字起こししてくれるサービスがあるんですよね。
でその後になんかノートっていうブログサービスと連携してもうスタンドFMで喋ったことを自動的に自分のそのノートっていうねブログサービスの方にテキストとして読み込ませるみたいな。
ちょっと僕は使ったことないんで詳しくわかんないんですけど興味ある方調べてみてください。
だからスタンドFMの方でやればそういうことをもう自動でやってくれるんですよね。
要は自分で喋ったことを自動的にテキストにしてしかもそれをノートっていうブログサービスと連携してブログ記事にしてくれるみたいな。
それはすごい便利だなと思いましたね。
僕はあんまりまだそれはなんかあの興味はあるんだけどそこまでもうあの熱が冷めてしまったので。
熱が冷めてしまったっていうのは自分の音声をテキストにするっていうことに対するちょっと熱量が冷めてしまったので今やってないんですけれども。
ちょっとそれもねまたあの研究してみるの面白いんじゃないかなというふうに思いましたね。
ということでね今日ちょっとつらつらとお話ししてちょっと話があちこちって聞きづらかったかと思いますけれども。
まあ音声の情報量はすごいっていうことですね。
やっぱりテキストにするよりもまんま音声で聞いた方が結局一番伝わるんですよね。
まあまだまだ音声配信というのはそこまでメジャーではないですけどもね。
やっぱり音声が一番伝わるなというふうに思っております。
はいということで以上聞いてくれてありがとうございます。
12:01

コメント

スクロール