2024-01-15 17:48

Season 3-67.「人が喋ることとAIの生成音声や合成音声の立場」

Keeth Kiyohito Kuwahara

Host

はい❗第341回はまたまた音声配信についてのお話です（笑）今回は特に，AI や合成音声と，人の肉声の関係値や立場の違い，差別化について思うところを語ってみました💁

ではでは(=ﾟωﾟ)ﾉ

ーーーーー

♫ BGM

騒音のない世界「月面の鯨」

https://soundcloud.com/baron1_3/kujira

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

00:14

はい、みなさんこんにちは。kkeethことくわはらです。本日もやっていきましょう。

kkeethのエンジニア雑談チャンネルです。この番組では、ウェブ業界に関することや、

エンジニアリング、いろんな技術についての雑談などの情報を発信していきたいと思います。

で、今日は何喋ろうかというところですけど、

今朝もまたチャットGBTに壁打ちを起こしていただいてましてですね。

で、話していた内容が、音声配信の、まあ今日のタイトルですね。

AIとか、AIが生成する声とか、あと合成音声と、

実際人が喋る、こういうポッドキャストとか音声の違いとか立場、

あとはどっちの方が優劣あるのかなみたいなのを、軽く壁打ちをしていただいたんですけど、

まあ結論的には、まあ優劣をつけるのは正直難しいし、

そんなもの本当にあるのかもわからない。まあそういう話をしていました。

とはいえ、強み弱みっていうのはしっかりあるというので、

どうなんだろうと話をしようと思います。

まあ最初にした質問が、

ポッドキャストをはじめとした音声配信の未来はどうなる?

動画の画面を切っただけっていう風に言われていて、

まあその価値があるかどうかみたいなところを議論されて、

まあ久しいんですが、

まあ音声配信にはそんな未来がないっていう意見もあって、

まあ少なくとも大きくパイを撮るのは難しいと。

まあパイを撮るのは少なくとも動画じゃないのっていう話があると思うんですけど、

それについてどう思いますか?みたいな問いを投げましたと。

で、それに対してチャットGPTの回答ですけども、

まあポッドキャストやその他の音声配信の未来に関しては、

まあいろんな意見もあるし予測もあるんだよね。

一部では動画コンテンツに比べて、

まあ革新的な進歩が少ないっていうまあ意見もあるし、

将来制定に関しては様々な見方が存在するよねっていう話をしています。

まあこの辺はその通りなのはそうなんですけど。

で、まず音声配信の価値っていうのは、

やはりその忙しい多忙な現代人にとって、

まあ便利なメディアであることは間違いないと。

いわゆる流れ撃ちをしていける。

つまり目と手が奪われないから、

他の作業をしたり他のことに没頭まではいかないですけど、

集中しても実は流しておけることはできるよねっていうのが一つです。

まあ特にまあ通勤中の人もいたり、

運動しながらも聴けたりするってもちろんありますよね。

まあ運動しながら音楽を聴くことはどうなんだろうっていう別の議論もありますし、

私は運動中は実は音楽聴くのあんま好きではない派なんですよね。

運動中はちゃんと自分の呼吸とか心配機能とか、

体筋肉の動きとかに対して意識を集中させながら僕は走りたいので、

音は邪魔なんですよね。

まあさて、

まあそういう難しい、

目を使ったりすることは難しい状況での情報取得だったり、

あとは娯楽ですよね、

の提供に一律な長があって、

ここは動画では無理だよねっていう観点がやっぱり大きな理由で、

ここは今後も変わらないというところですね。

もちろん目が見えづらい、もしくは見えない方の配信を聴く、

03:04

媒体としては音声しかないような事実としてあるので、

そこは完全にこちらの方が強いと思いますね。

科学の技術が進歩して、

特殊なヘッドセットとかをつけると目が見えない人よりも脳に信号を送って、

直接今見ている画像っていうのを送ることで、

擬似的に見ているっていうことを体験できる、

みたいな技術はどんどん進化をしていますし、

そういうのが今後もっと進化していって、

よりウェアラブな機会が出てくれば、

目が見えないことっていうところのマイナス面はどんどん解消される気はしますけど、

とはいえ音声配信の強みはあるよねと。

また音声技術の進化とか、音声認識やAI技術の向上によってパーソナライズされた、

その人本人が好きなものとか興味関心が強いものに対しての

リスニング体験の向上っていうのの可能性はもちろんありますよね。

これは動画も一緒です。

なのでいわゆるレコメンド機能っていうのがAIが入ることによって、

より進化をしていくっていうのはもちろんあるんですけど、

一応その面も音声にもやっぱりありますよっていうところでした。

結局のところ音声配信の未来っていうのは技術の進化とかコンテンツの質とか、

あとはマーケティングの戦略ですね。

あとはリスナーの好みとかライフスタイルの変化にも結構依存をしてしまうので、

完全に動画にとって変わられることは難しいんじゃないのってことですね。

結局ニーズがある人にはニーズがもちろんあるっていうので、

どっちの方がニーズ強いかっていうのは、

正直言うと現時点では計測は難しい。

では動画の場合は視覚情報によってコンテンツのクオリティが、

音声とはもちろん違いますよね。

受け取れる情報量とか質の高さっていうのは絶対動画には音声が勝てないと思うんですけど、

音声配信もクオリティ上げていくと最終的にはちゃんと聞かないといけないとか、

ちゃんと時間を確保して音声配信を聞くっていうことをすると、

そのクオリティを求めるのであれば結局動画の方が強いんじゃないのっていう話がやっぱりあります。

これに関してはその通りだっていうお話もされてます。

やはり視覚的な資料とか情報の開示によって、

教育的な内容もしくは専門的な情報っていうのを与える際には、

クオリティが高いのは絶対的に有意義があるというふうに言ってます。

やっぱでも学術とかそういう専門トピックに関するものが圧倒的に強いですね。

あとその料理系の情報っていうのは動画があったからこそ、

だからこそクックパッドが敗退ではないですけど、

今すごく大変になっているのはそういう事実があると思います。

クラシェルさんとかいろんな料理系の媒体さんが動画コンテンツでやりだしたっていうのは本当に強いと。

元々YouTuberもいたので、

より画像とかだけだとSNSっていうところだけだと勝負できなかったっていうのが事実としてあるので、

やはり動画の強みはそういうところにありますね。

音声配信で料理系はちょっとしんどいよねと。

一応聞くことはできますけど、もう一回すぐ再生し直したりとかできないんですよね。

音声ってどこまで戻せばいいかってシルクバージョンは見てわからないんですから。

はい、というところですね。

まあでも結局コンテンツは好み、人それぞれなのでっていう、

この点はやっぱりAIはずっと言い続けていて、

06:01

そこが動画と音声のどっちが優劣あるかっていうのが答えられない理由だそうですね。

人の好みは結局人次第ではあるので、そこを傾向をとるのはやっぱり難しいと。

それは背景もありますよね。

どんな人が生まれてきてどういうものを見聞きしてきたのかって、

そういう環境に応じて音声の方が好きな人もいると思います。

ではでは、じゃあAIが進化すると、自分の声を勉強させることができるんですよね。

いわゆる声フォントみたいなものが生まれたじゃないですか。

ああいうもので学習をさせて、なおかつ自分の声を自動で生成できるようになります。

さらにそこに抑揚をつければ、もう完全に自分が喋るよりもノイズが減りますよね、少なくとも。

人が喋るってことはリップノイズが出てきたりするし、

もしくは環境音とかが入りますよね、収録中。

っていうのがなくなるので、グッド音声のクオリティが上がりますし、

編集作業もほぼほぼサクッと自動がいけるはずなんですよ。

っていうことをやれるのであれば、最終的には

人が喋ることってどうなんだっていう観点もありますし、

もしくはボーカロイドみたいな合成音声もありますけど、

あそこの方でクオリティを上げることで、

自分の好みだなとか好きだなっていう声を生成をして、

喋らせた方がニーズあるんじゃないの?っていう風に思ったんですよね。

それを聞いてみたんですけど、

AIの技術の進化とか音声コンテンツの制作に革命を垂らす可能性はやっぱり高い、

っていうような事実を言ってます。

で、自分の声を駆使させて欲意をつけるっていう、

それも多くの面では利点があると。

さっき言ったクオリティの向上ももちろんそうですし、

編集の効率化もそうですし、

合成音声っていう僕が質問を投げたことに関して、

そのまんま返してきましたね。

僕が言ったことは全部可能性としては全然ありそうなので、

人が喋るより機械とか合成音声が喋る強みっていうのは、

今後もっともっと増していきますねっていうのは言ってます。

ここはなんていうか怖い面もありますし、

その声でお仕事をしている方に関しては、

ちょっと脅威に感じる可能性はありますよね。

特にニーズの面ではどこにあるかっていうと、

AI合成音声とか音声コンテンツの制作を行うクリエイターとか、

企業にとって魅力的なオプションになるでしょう。

企業とかまさにお仕事する場面の会社さんでは、

AIとかでやって人件費が下げられるのはそれで全然魅力なので、

オプションとしてありえるよねっていうのはわかります。

個人でやっている方とか、

音声だけでやっている方にとってはどうなのか、逆なのかもしれないですね。

AIを使って作業の効率化をされている方も今たくさんいらっしゃいますね。

昨日も言った通り、今はテキストに1回落とし込んで、

そのテキストを編集すれば音声の編集もできますみたいな機能が加わったものがたくさんあるし、

AIによってこれはもう完全に関係音とかノイズですね。

自動でサクッとカットするみたいなことができたりするので、

ほんと楽になりましたっていうのはありますけど、

自分のそもそも仕事そのものを取って変わられる場においては、

ニーズはもちろんないでしょうねって感じですね。

とはいえ、合成音声のいわゆる感情表現であったり、

微妙なニュアンスの再現っていうのは全然課題が残っているので、

ここがまだ技術の進歩の普及に影響するかもねっていうところを言っています。

09:03

ここはほんと難しいですね。

これができれば本当のAIが生まれる可能性はありますからね。

とはいえ、課題は残るんですけど、

作業の編集は効率化できましたと。

であれば、空いた時間でより自分たちの発信するコンテンツのクオリティを上げるために、

ここは感情表現をつけたい。

例えば、ちょっと悲しみを表現したいので、

ここは声のトーンを下げるとか音量を下げるみたいなことを編集して、

よりクオリティを自分たち人間が肉付けをしていくことで、

クオリティを上げることもできたりするよねと。

もしくはそのテキストで一回落とし込んで編集できるようになるってことは、

そのテキストからこの文脈でこのテキストを使うということは、

この感情は今マイナス面かプラス面かっていうのがあって、

それをグラフとか、例えば色で表現するとか、

とにかくパッと見て可視化ができるようになれば、

よりもっとクオリティとかが上げやすくなるし、

作業の編集も苦ではなくなるっていうので、

そういう実現性とニーズはあるのかっていうのを次に投げてみたんですよ。

これに関してもやはり指摘の通り、

可能になる可能性は全然あるし、

もうすでになりつつあるっていうふうにおっしゃってます。

これに関していくつか側面があって、

感情表現の自動推測はやっぱりその通りで、

これはいわゆるオーディオブックとかナレーション、

教育コンテンツで特にここは有効になる機能でしょうねって言ってます。

あとはユーザーによるカスタマイズですね。

特定の部分の感情を手で調整することもできますし、

自動でやることもできますし。

ニュアンスの追加が可能になるってのは結構大きい。

で、可視化ツールの活用っていうふうにここAI言ってて、

僕はツールそのものに可視化する機能が加わってほしいと思ったんですけど、

このAIは別のツールを使ってそこを見るようにするみたいな話をしてて、

ちょっと観点が違ったんでここは参考にならなかったなって感じですね。

とはいえこれが入れば専門家じゃない人でも音声配信とか

感情より自分で調整もできますよねっていうふうに言ってますね。

その意味ではポット屋さんとか音声配信の

ハードルがどんどん下がっていくっていうのはあるかもですね。

僕も別にプロではないですけど、

プロの方々がやってるような音声配信ですね。

のクオリティを別に素人でもちょっとツールを使えば

できるようになる未来は来るんだろうなっていうのは思いました。

最終的にはその人が喋る話ですね。

この今回のタイトルですけど。

クオリティは下がるけどいわゆる人間味っていうのが絶対に加わってくるっていうものと、

機械とかハイクオリティな音声ですよね。

合成音声とかの戦いに最終的になるんじゃないかっていうのが

僕の最終的に投げた質問なんですけど。

これに対しての回答が、

いくつかの側面があることはまず考慮しなきゃいけないと。

一つ目はやはりさっき言った通り人間味の価値ですよね。

人が喋るっていうところ、

感情の深さもそうですし、微妙な欲望とか個性の違いとかも出てきます。

ここは機械外ではなかなか難しいだろう。

これはもう完全に個人のコミュニケーションの場に近いというところで言ってます。

この人間味っていうのがAIで再現するのはすごく困難ではあるので、

ここが好きな人には刺さるだろうなという話でした。

12:01

次は合成音声そのものが進化するっていうお話ですけど、

一方で合成音声の技術っていうのが急速に進化してきていて、

クリアで自然な発声とか欲望とか感情表現の向上も実は見られているっていうのはある。

これによってさっき言ったオーディオブックとかニュースの読み上げとか、

ナビゲーションシステムとかもそうですね。

電車とかの連絡とかアナウンスとかあるじゃないですか。

あの辺ももう多分合成音声になってくるんじゃないかと思ったりします。

そういうところでのアプリケーションの使用点をどんどん拡大はしていっている事実はもうすでにあるよと言ってます。

これはまあいい話ではあります。

続いて3つ目ですけど、用途に応じた選択っていうお話をしていて、

使用するコンテンツの種類とか目的によって、

人間の声と合成音声どちらが適しているかってのはもちろん決まる。

結局その配信する場とそのコンテンツの内容自体がマッチしなければ許可ニーズはないのでそこなんじゃないのっていう話をしているんですね。

その中でその個人的な話題と感情的な内容の方が好まれる場合って全然あるというところですね。

例えばその教育とかインフォーマティブなコンテンツっていうのは合成音声の方が便利かもしれないですし、

いわゆる語学に近いところとかでは明らかに人間が喋る方が強いでしょうっていうのは言ってましたね。

ラスト4つ目、リスナーの好みですね。

これはもう今回一貫していたお話をずっとしてました。

とにかくリスナーがどっちを好むかっていう次第ですね。

人によってはその一貫性のある合成音声、ハイクオリティなものの方が大好きな方もいらっしゃると思いますし、

そういう人間みんなあるような欲望がある好きな声っていうのがあるかもしれないので。

いわゆるそうしてですね、人間の声と合成音声の間の戦いというよりは両者はこちらのニーズにあるというところで言ってますね。

はい、そうしていろんな話を加味すると、人間の声と合成音声の間との戦いっていうことよりも、

観点としては両者が異なるニーズと状況に対応するように共存するというか補完関係に合うっていうのが考えられる結論ではないかっていうふうにおっしゃってます。

技術の進化によって合成音声はもちろん洗練されるような事実としてもありますし、

多様な用途に適応していく一方で、やはり人間の声の独特な魅力っていうのが引き続き重要な役割を果たすっていうのもAIには実は見えてます。

ここは結構僕は面白い答えだったなって感じです。

最後は余談というか雑談に近いところですけど、

結局学習の観点では合成音声とかの方が価値が高いというかクオリティが高いよねっていうかニーズはあるというふうな話をちょっとしていて、

とはいえそう、やっぱ長ら劇っていうのは受け取り手がコンテンツをしっかり受け取れているかどうかっていうと正直微妙な問題もあるじゃないですか。

長らって言ってる時点で。

その点では結局音声の価値はあまり高くなく、逆に言うと音声は補足とか教科書に載っていないいわゆるサブカルナだったりとか予備情報だったり、

普通は聞き取れない面白い情報、

例えば歴史とかをやっていくとこの人って実はこういう人間味があるよねとか、

こんなことを事件を起こしてました。

教科書に載ってないけどねみたいなそういう面白コンテンツとしての情報に倒すんじゃないかなっていうふうに僕は思ったんですけどどうですかって聞いてみたんですよね。

15:04

そこに関しては、

まず補足的な学習ツールとしての価値は絶対にあると言ってました。

より広範な知識とか深い理解をするとか載ってない別の情報を得るってのはすごく強いと。

あとは集中して聞く必要性のところですけど、

学習内で複雑度が高かったり難易度が高いものに関してはやはり効果的ではないので、

そこは音声配信はむしろ適していないというふうな話をしています。

あとは教育コンテンツの多様化ってのも正直あって、

音声配信ってのは従来の教科書とか講義形式の学習に多様性をもたらすっていうような、

そういう切り口として音声配信の立場はあるんじゃないのっていうのがすごく面白かったですね。

で、その異なる学習スタイルを持つ人々に対してより柔軟な学習方法を提供することが可能だと。

これも余談ですけど、人の情報の受け取りやすさっていうのがあるじゃないですか。

テキストの方が好きな人いれば絶対的に音声の方が頭に残りやすいし、

しっかり言葉が頭に入るって方も全然いらっしゃるんですよね。

その差は本当にあるので、絶対に学習に関しては動画とかテキストの方が強いとは一概には言えないっていうのはもちろんありますね。

学習の最初は音声で入って、それは自分で聞きながら手でノートに書いたりすることもできたりするじゃないですか。

その中で補足とかちゃんと実を取るために教科書を見てみるっていうのも全然できると思う。

そういう意味では音声コンテンツか、いかに教育とか専門的な内容で負けているとは限らないねっていうのを言ってました。

最後はその面白い情報との組み合わせで、

教科書にないユニークさとか面白さがあることで、学習そのものへの関心とか興味を引き付ける。

その学習体験をより豊かにするという観点では音声コンテンツの強みは全然あるんじゃないのっていうふうにも言ってて、

ここもすごく面白かったですね。

なのでやはり総合的にいくと対立関係ではなく補完し合ってお互いが補やう関係が一番いいというふうな結論だったので、

とはいえAI技術が進化して人が好みの音声を自分で作る未来ももちろん来るでしょうし、

なんですけど人間の声も全然ニーズはまだまだあるんじゃないかという答えでした。

とても面白いチャットGBTとの対話でした。

というのを今日はちょっと喋ってみたかった感じです。

参考になったら幸いですし、音声が今後どうなるか分からないですけど、

興味持った方は自分でも音声配信していただければなと思ったりしてます。

というので今日は終わっていきたいと思います。

はい、今回はこんなところで終わっていきたいと思います。

いつも聞いてくださり本当にありがとうございます。

ではまた次回の主力でお会いしましょう。

バイバイ。

17:48

ギフトを贈る

ギフトを贈ると、手数料を除いた金額が相手に送られます。ギフトで配信者を応援しましょう。

気持ち

ミニハート

200円

ピンクのハート

200円

赤いハート

200円

くす玉

1000円

花

花

300円

ひまわり

300円

バラ

300円

チューリップ

300円

チューリップの束

5000円

バラの束

10000円

飲み物

ビール

500円

オレンジジュース

500円

クリームソーダ

500円

ビールで乾杯

1000円

日本酒

1000円

ワイン

1000円

ワインで乾杯

2000円

シャンパンで乾杯

3000円

食品

キャンディー1

50円

キャンディー2

50円

マカロン1

300円

マカロン2

300円

マカロン3

300円

マカロン4

300円

ケーキ

500円

明太子

500円

ソフトクリーム1

500円

ソフトクリーム2

500円

いくら寿司

500円

まぐろ寿司

500円

大トロ寿司

500円

サーモン寿司

500円

うに寿司

500円

卵焼き

500円

餃子

600円

たこ焼き

600円

ラーメン

1000円

ステーキ

2000円

ホールケーキ

3500円

顔

笑顔

100円

はてな顔

100円

悲しい顔

100円

困った顔

100円

にこにこ顔

100円

驚いた顔

100円

怒った顔

100円

おわた顔

100円

ウケる顔

100円

動物

ハリネズミ

900円

ひよこ

900円

犬

900円

カワウソ

900円

猫

900円

うさぎ

900円

カエル

900円

笑顔の犬1

1000円

笑顔の犬2

1000円

笑顔の猫1

1000円

笑顔の猫2

1000円

こちらもおすすめ

生成AI時代に必要なスキルは〇〇

日本酒侍ぐりこ先生のココだけの話

212. 昨今のWeb業界で起きている事のお話

余談ですが.fm

【前編】AI時代にあえて音声配信する意味とは？

半年後の自分がワクワクするWeb3.0ラジオ

Season 3-65.「ChatGPT と対話をしている」

雨宿りとWEBの小噺.fm

音声配信の世界に AI が入ってきているが，さて僕らはどうするのが良い？

徒然なるままに頭の中を吐き出す場

#12 Adobeの画像革命、Googleの教育プレイ、そして言語の壁を超える11Lab

rel.ax

スクロール

Season 3-67.「人が喋ることとAIの生成音声や合成音声の立場」

スター

エピソードをシェアする

メッセージを送信

Keeth Kiyohito Kuwahara

ギフトを贈る

気持ち

花

飲み物

食品

顔

動物

ギフト

スター

コメント

こちらもおすすめ