Vol. 232 文字起こしと読み上げのことをBSNのコラムに書いたよ

BSNラジオのコラムとサニーサイドの連動

はい、おはようございます。7月7日、金曜日です。

新潟のへラジオ、一戸信哉です。

今日はですね、BSNラジオの育むコラム、正確にはSDGsで育むコラムの話をしたいと思います。

BSNラジオは新潟県のローカルラジオ局ですけど、

毎週土曜日にサニーサイドという、朝の10時から夕方3時まで、結構長い時間放送されている番組があるんですが、

その番組の中で、このコラムと連動したコーナーがありまして、たまに2、3ヶ月に1回ぐらい読んでいただいてお話するんですけど、

お話しする前に1回、BSNラジオのホームページにコラムを書いて出すということになってまして、

今日いろいろ考えたんですけど、今回は音声コンテンツのAIの処理の話を書きます。

難しいですよね。私はテクノロジー系の話題を書く担当みたいな立ち位置なので、ずっと書かせていただいてるんですけど、

ただSDGsに寄せていこうみたいな話になって、何でもSDGsと言えなくはないんだけど、

それを今回何番ですかみたいな話を言われて結構ね、しんどい。そこはなかなかそこに寄せていかなきゃいけないっていうので、いろいろ考えなきゃいけないんですが、

今回は音声コンテンツの話を書いてみたので、その話をしたいと思います。

はい、おはようございます、コメントをいただきました。

あ、そうか、野っぽろね。夏に今度野っぽろ、野っぽろじゃなくて、エベツだ。

エベツに行く計画を今立てていますけども。

あ、それで、そうそうエベツの、エベツふとという場所に取材に行こうという計画を今学生たちと立てています。

その話はまた今度しましょう。

今日はですね、音声コンテンツの話なんですが、前に一回リッスンという大文字でリッスンですね。

LISTENのリッスンの話は一回したと思いますが、今はてなの近藤さんがすごく頑張って作っているサービスで、

ポッドキャストの文字起こしをするサービスというのがありますと。

その話は一回したと思いますが、そのことをまず書いたんですよ。

ポッドキャストの文字起こし機能

で、これをやると何が起きるかというと、

ポッドキャストでこうやって喋った内容がそのまま文字起こしされて、

一つのページになるんですね。

だからこのスタンドFMで喋った内容も今私が喋った内容はそのまま文字起こしされて、

それでページに乗っかるというふうになった。

別のページがもう一個立ち上がるんですよね。

で、そこの中にこうスタンドFMの音声がビルトインされているので、

再生しながら中身を文字でも見ることができると。

あまりそういう需要はないかもしれないんだけど、文字起こしをしてくれるというサービス。

当然今私が喋っている言葉の中にも動音異義語はたくさん含まれているので、

結構漢字は間違っているんですが、間違っている漢字もですね、

後から一括変換みたいにして直せるようになりましたので、

かなり正確な記録、自分で手で直していかなきゃいけないんですけど、

それもできるようになり、

それで何の話かというと、

それで文字起こしをするだけじゃなくて、文字起こししたものにいくつかの機能がさらに付け加わりまして、

目字機能とそれからサマリー機能と和写分離というのがいろいろ付け加わりました。

どういうことかというと、この文字をただ文字起こしするだけじゃなくて、

いわゆるチャプター分けといって、今私が止めどなく喋っている文章の内容を区分けしていって、

ここの部分ではこの話をしているみたいにして区分するようにしているというのが一つと、

それからサマリーといって全体を要約するのもやっちゃうんですよ。

それぐらい人間が要約するのと同じ程度の要約になるか別にして要約をしてくれて、

要約が頭にきて目字がきて目字をクリックすると目字のチャプターのところに飛んでいくというところまでやってくれるようになりました。

便利ですよね。

さらに今私のこのポッドキャストの場合は一人でこうやって喋っているんですけど、

スタンドFMでもコラボ配信みたいにしますよね。

複数の人で喋りながらやった場合、話者分離機能、話すものの分離ですね。

喋っている人の声を聞いてAさんBさんCさんみたいな感じに分類してくれる機能もつきました。

分類した上でこの分類した人を当てはめていくと、いわゆる対談みたいなページもすぐに作れるようになりましたので、

それもやっぱり同じような声、男性と女性みたいになっていれば結構間違いはないんですけど、

同性の人が喋っているところで同じぐらいの年の人が喋ったりするとちょっと混じっちゃったりするんですけど、

それもできるようになったというので、私の場合は大学の方でラジオ番組を作っていて、その系はキャンパスレポっていうんですけど、

その作った番組をさらにポッドキャストに載せているので、そっちも文字起こしさせてみているんですが、

やっぱり結構話者分離機能を使って対話している部分も切り分けるっていうのも今実験をしているということです。

自動読み上げ機能と話者分離機能

現象としてはそういうことなんですけど、現象というか機能としてはそういうことなんですけど、これをもうちょっといろいろ考えてみると、

結局か今のスタンドFAOでもそういうことですけど、

喋ったものっていうのはこうやってリアルタイムで聞いていただければもちろん内容は文字で読むよりもスッと入ってきやすいというところもあると思いますし、

あと長らぎきみたいなのにも適しているわけですけど、でもやっぱり検索性とかいう点では少しやっぱり弱さがあって、

だからやっぱり文字になっているっていうことの価値というのももう一つあるよなと、

一覧性っていうかGoogleで検索して引っかかるっていうところまで含めて考えると文字になっていることの価値っていうのはあるよねということも改めて感じるところですよね。

で、もう一個書いたのが、このListenと今度逆で、スタンドFMの機能で読み上げの機能っていうのが入りましたよね。

これも実はですね、学生とやっているラジオ番組の方では結構コラムを学生に書いてもらったり、私が書いたりしているページが結構あって、

この書いたコラムをコラムを書きっぱなしにしないで、学生たちにちょっと読んでみてよっていうふうに言っていたんですけど、

やっぱりなかなか時間をとって読んでくれないので、毎週書いてもらっているエッセイとかがどんどん溜まっちゃってたんですけど、

自分で読んだほうがいいと思うんですけど、やっぱりなかなか忙しくて読めないみたいな場合には、この自動読み上げ機能っていうのも今度使えるかな。

自動読み上げ機能で書いたコラムを音にするっていうのもやってみようということで、

実はK-1キャンパスレポっていうのをもう一個別のスタンドFMで立ち上げてみました。

そうすると今度逆に文字になったものを音にするっていうのもできるようになったということですね。

だから音を文字にする、文字を音にすると相互に行ったり来たりっていうこともできるようになったということですね。

これにあと映像が加わればいいかなみたいなところもありますけど、映像も実はあれですよね。

チャットGPTのプラグイン機能で映像で出力するというのも結構できるようになりまして、

バーチャルキャラクターが文章を読んでくれるっていうのもチャットGPTのプラグインでポンと出せるようになって、

この間それ実験してみました。そういうこともできるかな。

だから一粒で何度も美味しいっていうのがいろいろできるようになってきて、なかなかいろんな可能性が広がるんではないかと。

もちろんそれをどのように活用していくのか、あるいはそういう中で本物がね、

本物が喋ったり本物が出てくるっていうことの価値が再評価されるのかされないのか。

私がこう喋るか喋らないかはそんなに大きな影響がないかもしれないですけど、

やっぱりタレントの人が自分で出てきて喋るのか、それともSNSに書いた文章をアナウンサーが読み上げるのか、

そこだってやっぱりね結構価値に差がありますけど、そういうことがより幅広く認識されるようになってくるのかどうなんでしょうねというところでしょうかね。

でもいずれにせよそういうコンテンツの形が今まで以上に柔軟に切り替わり、

保管するみたいなこともかなりできるようになってきて、それは音声と文字というところの間でもいろいろ生まれてきているように思いますね。

SNS界隈では昨日からスレッズっていうメタンが新しく出したツイッターみたいなサービスが話題になっていて、

今朝なんかねテレビでもやっていたみたいですけど、インスタから行けるっていうのが大きかったのかな。

インスタのユーザーがそれだけたくさんいたっていうこともあったと思うんですが、どれぐらい使われるかは別にして、意外とみんなバーってやり始めましたよね。

私も作ってみましたけど、まだ1回ぐらい書き込んだだけですけどね。

その話はまた次回したいと思います。

また明日この話はまたBSNラジオでお話しする予定ですので、朝10時ちょっと過ぎぐらいからお話しする予定ですので、よろしければ聞いてみてください。

今日はここまでにしたいと思います。ありがとうございました。

スター

エピソードをシェアする

メッセージを送信

shinyai

サマリー

目次

スター

コメント

こちらもおすすめ