1. はやつ~のLISTENぼいろぐ
  2. 「音声と声と言葉と文字の間」
2023-10-28 15:30

「音声と声と言葉と文字の間」

音声メディアトーク回です。

サマリー

音声と声と言葉と文字の間についての話題についてお話ししています。音声メディアと文字メディアの比較やAIボイスの活用、そして自分で書いた文章を読み上げる方法についてお話ししました。ブログやSNSが人々の情報交換や交流の場となり、ネットコミュニティが盛り上がっています。そして、声メディアが読み上げや体験のデザインとして注目されているのですが、AIボイスとの競争も近づいており、プロの声優やナレーターとの差が問われることもあります。

音声メディアと文字メディアの比較
おはようございます。犬の声が聞こえたらすみません。
こんな感じで歩きながら収録するのが、だんだん定番になってきて、逆に歩きながらでないと喋れなくなってきているような気もしなくはないですが、とりあえず今日もやつまていきたいと思います。
結構風が強いので、風の音がすごい入ってしまう恐れがあるかもしれません。
その場合はまたテキストで読んでねっていうのをタイトルの頭につけるかもわからないです。
ポッドキャストでリスナーの方に伝えたい情報をどこに入れるかっていう問題はあるのかなと思います。
一番見てもらいやすいのがタイトルかなと思ってタイトルの頭に入れることが多いんですけれども、
そうするとタイトルがものすごく長くなったり、その注釈で本当に見せたいタイトルの部分が見えなくなってしまったりとかで悩ましいのかなと思ったりしますが、
あとは概要に入れるとか、サムネとはポッドキャストでは言わないかもわからないですけれども、各話ごとに画像ファイルが設定できると思うのでそこに入れるか、
あとはですね、この番組の中でしゃべるかっていういろんなアプローチがあるかと思いますが、なかなか伝えるのが難しいですが、
そうですね、例えば今回のこの私の収録方式だと、編集の中でブリューっていうのを挟むんですけど、
このブリューは編集をするときにAI音声を呼ぶみたいですけれども、
要するにテキストで言ったらそれをロボットボイスでしゃべってくれるっていう、AIボイスでしゃべってくれるという機能があるので、
そういうので入れるっていうのも一つの手かなと思いました。
では改めまして今日のトークですが、前置き長いです。
今なってきましたが、みんな大好きかどうかわかんないですが、私大好き音声メディアトークになります。
テーマが音声と声と言葉と文字の間というものになります。
ポッドキャストというのは音声メディアということで、今言った中では音声ですよねということでキュアとカテゴリーとしてはあると思います。
これ自体でもしゃべる声の部分とBGMとか音楽とか環境音とかいろいろあると思います。
そういったものが一般的に音声メディアの魅力だと思うわけなんですけれども、
今回リッスンというサービスを今私も使っているわけですが、
これはここに一石を投じる、別に問題提起するという意味ではないんですけれども、
メディアの垣根とか境界線とか考え方というところをもうちょっとテクノロジーを活用することで広げたりとか可能性が広がったりみたいな、
そういうことが感じて私もワクワクしているわけですけれども、そういう側面があるかなと思います。
リッスンは文字起こしをします、できる、自動的にやってくれるサービスですというのがものすごくわかりやすくて短くて、
端的なサービスの説明になるので、そこがまず一本筋が通っている部分としてはあると思います。
このわかりやすい部分を言ったときに、一部の古き良きというか、
AIボイスと自分で読み上げる方法
ポッドキャスト文化の観点からすると、ちょっとなって思う部分があるのかなと思います。
それは音声メディアでしゃべっている内容とかっていうのは、しゃべっている内容全体の部分とかしゃべり方のニュアンスとかスピードとか、
いろんな情報がいっぱいあるんですよね。
それを文字起こしとしてテキストにすると、すかすか、かすかすで、すごい情報量が減ってしまっているという感じですよね。
動画でも4Kで撮っている動画をVGAくらい、640×480とかにちっちゃくしてしまうと、情報量がすごく減ってしまって、
それを4Kテレビとかで見たらもう、ギャーってなるみたいな。
そういう劣化させたくない、みたいな、そういう感じがあるような気がします。
劣化させる展開としては、よくある文脈とかがなく切り取られて、言葉だけ、言葉の部分だけのニュアンスとかが欠損した状態の情報だけで広がったりとか炎上したりとか誤解されたりとか、
そういうことが避けたい、困る、嫌だなというのがあると思います。
なんですけれども、私としてはこの音声メディアか文字メディアかという2極ではなくて、その間文字と解像度を上げて音声と声みたいな。
音声だと例えば冷蔵庫が閉まる音とか、そういうのは音声ではあるけれども声ではない情報が一つだと思うんですけれども、
あと声で出しても叫び声とか、言葉じゃない声っていうのもあると思うわけですけれども、
そういうののちょっと意味合いが関わってくる部分があるのかなと思います。
これでも分け方としてはあんまり美しくないですけれども、ちょっと解像度を上げて、ちょっとでも議論が細かくなることを期待して表現をもうちょっと終わりたいと思っています。
そうやって割ったのと、あとはどこに軸足を置いてどっちと比較してみるかという視点の違いというのもあるかなと思います。
さっきの例でいうと、音声メディアの方に軸足があって、その軸足からテキストで文字を更新した情報を見ているという視点からの感覚というか意見というか、
そういうものだったのではないかなと思います。
それと比較して、私が最近思う軸足の場所と向く方法でいうと、まず文字ですね。文字が軸足にあって、その軸足から声ですね。
最近私はWebページとかテキストメディアとかをブラウザのEdgeを使って読み上げしてもらうということが結構頻度が増えてきています。
さっきはロボットボイスとか言いましたけれども、もうロボット感ないんですよ。すごいロボット感ないというか、すごい自然な人の声には近づいてくれると思います。
ただそうは言っても、そのAIボイスが見ているのはテキストデータだけなので、テキストを書いた人の気持ちとかニュアンスとかを再現するのにはだいぶ難しい部分があるわけですね。
それに対して、自分で書いた文章を自分で読めば、自分のニュアンスはだいぶいっぱい埋めることができるので、いいように話になるわけです。
今言ったような流れと考え方でいうと、一番素直なのは一旦自分でメモ帳とかでテキストで文字を書いて、その書いた文字を後で自分で読み上げてそれを録音するということができれば、
さっきの言葉を一番自然にコンテンツとしてクリエイトするワークスフローだと思うんですけども、これを手順をひっくり返して、手抜きだと思うんですけども、
まず喋って、喋ったものが上越しになって、だいたい喋りたいという順番でコンテンツを作ろうというような意識ですね。
それを今、私は持ちながらこのVlogを撮っているわけです。
このメディアを見てもらう人にも体験として想定しているというか、理想的な、先ほどの観点でいうと理想的な体験としては、まず最初にテキストを見るわけですね。
声メディアの盛り上がり
普通のブログみたいにテキストのブログ、最近だったらnote.comとかあると思うんですけど、あんなところに書いてあるものを読もうかなと思って、ページを開く。
そこでテキストを見れる。そこの時に読み上げしてもらおうかなと思った時に、ブラウザの読み上げ機能じゃなくて、私のボイスで読み上げているかのような声メディアですね。
声メディアで読める、聞けるという体験がいいかなというか、そういう体験をデザインしてみれたらいいなと思っています。
その時に声のメディアに期待される品質としては、ライバルはEdgeとか、先ほど言ったiOSとかmacOSとかでも読み上げてくれるんですけれども、
Otoyaさんとか、そういう名前ついてると思うんですけども、彼らがライバルなんです。
流暢さは今の時点でも分かりますけれども、伝わる通りですね。
先ほど言った声で喋った内容、音声メディアがテキストになると消えてしまう作者自身の思いとかニュアンスとか、
そういうものが負けないぐらいのクオリティだったらOK。
OKというか、価値として0よりマイナスではないぐらいの感じですね。
例えばテキストで見てて、テキストのニュアンスよくわからないなと思った時に、ここだけピンポイントで聞くみたいなことが、
リスンだとできます。全部聞いていただいているといいですし、
多分等倍で聞くかどうか問題というのは、音声メディアというときに考えたときにBGMとか、
BGMを入れるか入れないか問題というのも、これはまた別の話としてあるわけですけど、
それはちょっと一旦ここは置いておこうかな。
そんな風に私が今解けるこのオイドルのテロと方針と、等倍で聞くメリットはほぼないぐらいだと思うんですね。
今はブリューというのでめっちゃ頑張って文音部分を消してますけども、
これ私しゃべりながらめちゃめちゃ黙ってるんです。黙ってるというか、次何喋るか考えるか考えている時間が、
それこそ30秒とか1分とか2分とかぐらい黙ってたりするときもあるぐらいです。
もしかするとそういうので待ってくれる人もいるのかもしれないですけれども、
待ってもらえるヒューマンと待ってもらうのが難しいヒューマンがいるような気がしてて、
私はどっちかというと待ってもらうのが難しいヒューマンなんじゃないかな。
頑張ってブリューで喋っているところ以外は片っ端から削除しているだけ、
どんどん次から次へと喋っているかのような内容を内容にできるように編集がしているんですけれども。
というわけでこの話もそろそろ終わりに近づいてきましたが、
そんな私たちとはさっきの最初のホットキャストで文字起こしも自動的にできますよというコンセプトじゃない見せ方。
ブログサービスですよ。テキストのブログサービスですよ。
なんとご本人で読み上げしてくれる機能もついてますよぐらいの見せ方ができるモードがあると嬉しいなと。
個人的には超ニッチで要望を上げるのもおこがましいんですが、ちょっとおもったりはしています。
AIボイスとの戦い
ちなみに余談なんですけどオーディブルってありますよね。
最近は声で読書、音声で読書をするみたいに割合も人も声できているという雰囲気を感じてますが、
プロの声優さんとかナレーターさんとかアナウンサーさんとかが読んでいて、すごい心地いいですよね。
あれも今のAIボイスとの戦いがもうちょっとしたら始まるんじゃないかなっていうふうにもちょっとしてますけれども。
そうなんですかね。でも時々作者自身が読みましたオーディブル、オーディオブックもありますけれども、
やっぱりあんまりうまくないです。申し訳ないですけど感想になることもあるなと思っています。
どうですかね。村上春樹さんが読む街とその不確かな壁、読みたいですかね。
たぶん超超超村上春樹さんだったら読みたいと思うんですね。
ということでちょっと今村上春樹と比べてしまってはいけないと思い直したのでその話は置いておいて、
この、
はやつ〜のリスンボイログは、はやつ〜の日々考えていることをリストで読めて、かつはやつ〜自身のボイスで読み上げもしてくれるのを持ったブログのコンテンツですよと感じでやっていきたいと思いますので、
よろしければ今後とも見てもらえると嬉しいです。では今日は以上です。
15:30

コメント

スクロール