音声配信の世界に AI が入ってきているが，さて僕らはどうするのが良い？

音声配信とAIの進展

はい、こんにちは。ちょっと連続で収録をしています。先ほど、前回の話で、音声というかべしゃりと食べていくみたいなお話を一瞬していて

自分はそのポッドキャストを今もやっていて、このまま喋っていくだけでお生活を食べていけるんだったらそれが理想というのは何度も言っているんですけど

最近そのポッドキャスト配信と技術の進歩というところで、やっぱり AI の話が出てくるんですけど

Zenncast というものがあります。エンジニアならばご用達でしょう。エンジニアブログのサービス Zenn というものがあります。

昔から日本にあるものだと Keeta というものが有名ですね。インクリメント社。今は Keeta 社になったのかな。

Keeta 社が運営されているものの新しい版ですね。Zenn。今はクラスメソッドさんが運営されているメディア媒体になりましたね。

キャットノーズさんという方がもともと作られていて、今はキャットノーズさんは静かなインターネットというサービスを作ってますけど

そのZenn というのを作って、個人ですね。しかも作られて、それをクラスメソッドさんが買収したといった感じです。

この Zenn の方は技術ブログも書くし、単なるポエムを書くことも全然あり得る。

また、ブックという概念があって、本を書いて、そこで無料でも有償にもできたりもするというので、本当エンジニアライクでいいサービスですね。

デプロイもすごく早い。CICD ものすごい高速で。しかも GitHub 連携できるので草も生える。素晴らしいサービスなんですよ。

そこにもやっぱりタグが付けられたり、メンバー同士のフォローの試合もできたり、いいねが付けられたり。

GitHub 連携している場合は、そこにプルリクエストを出して、修正のプルリクを出したりすることもできる。

なのでちょっと OSS 感もある。マジでエンジニアとしてこれ以上ないぐらいのサービスです。

僕も使っていって、僕も GitHub でリポジトリ一つを生やして、そこで書いたりしてますね。

さらに投げ銭の制度も、制度というか機能もあって、このブログとかこの記事にも、記事単体にも確か投げ銭ができるし、書いた人本人にもできた記憶があります。

それぐらいファンも作れる、コミュニティの場を作るような使い方もできたりするので、今まではノートがそれに近かった感触ありますけど、ノートはやっぱりエンジニア向けのブログっていうよりも、クリエイター向けっていうのが本当に強い。

一応コードブロックもなくはないんですけど、ハイライトが効くわけでもないし、インラインのやつが使えないので、やはりゼンの方がいいなと思ってます。

ゼンの紹介がしたいというよりも、そのゼンというサービスのトレンドですね、聞いたりもトレンドっていう概念があるんですけど、記事のトレンドというものがあります。

いわゆる一定期間内でいいねの数がとても多い記事とかには、それがトレンドとしてトップページのところにトレンド記事っていうのがいくつかがピックアップされて乗るんですけど、

そういうものをざっくりとどの記事がどんなことを書かれているっていうのを教えてくれるゼンキャストっていうポッドキャストが去年か一昨年かに生えたんですね。

これの何がすごいかというと、音声で最終的には配信をするんですけど、その記事自体のクローリングとかまとめっていうのはAIが自動でやって台本とかも作ってくれる。

ZennとZenncastの機能

人が喋っているように見えるんですけど、あれ多分文編自体もAIが作ってきて、音声自体も多分合成音声で喋っているんじゃないかなと思います。

ちょっと僕がはっきりちゃんと調べたわけではないんですけど、それくらいほぼ自動化していて、かつクオリティも高いし、合成音声なので人が喋らないってことは噛むことがないし、ちゃんと聞き取りやすいとか人がいいなって思うスピード感であったり、抑揚をつけて喋っているので、ちょっとびっくりしましたね。

僕もたまに聞いてますけど、かなり人とも遜色ないぐらいの喋り方ですし、間の付け方とか抑揚とかも、ある意味淡々と僕が喋るよりも人っぽい喋り方だなって思うぐらいなんですよ。

であればもう、そういうニュース系のものだったり、トレンドの紹介の音声配信であれば、人がやる必要なんてもう全然なく、全部機械がやって、AIがやってくれて、それを流し続ければ視聴者の数も取れるし、結構回ってくれるというので、費用対効果抜群にいいんですよね。

もっといいのは、噛まないどころか、リップノイズとか、いわゆるホワイトノイズ系も全然ないですよ。回無ですね。収録が必要ないから。

というので、編集する必要もないし、噛むことがないってことは、ほぼもう一発撮りというか撮ってないから、そのまんますぐ出せるんですよね。これが素晴らしいですよね。

人間が収録すると、人自身が発する声もそうですし、唇とかのリップノイズも出ますし、環境音もある。そういうノイズ系がたくさんあるのと、言葉のヒゲって言われるもの、例えば、あーとか、えーとか、うーんみたいなやつですね。

一個一個喋るときの、頭になんかつけたりするもの。こういうものを結構カットすることもあります。言葉のヒゲカットするだけで、割と1分、2分くらい余裕でカットできたりするので、逆に言うと僕らはそれだけ無駄なことを喋ってるんですよね。収録しながらとか、話すときに。

そんなこんなで、時間的コストも全然早いんですよね、AIの方が。となると、人が喋る方がむしろ聞き取りづらかったり、発音が悪かったりしたら、え、これ何て言ったの?っていうのがあるんですけど、機械だと100%ないんで。

人が喋らない方が、ポッドキャストとしては実は最適解なんじゃないの?っていうのが、僕も最近ちょっとずつ思い始めてきた。であれば、人が喋るポッドキャスターっていうポジションっていうのはあんまり価値がないのかな?っていう風に感じ始めました。台本さえ作って、で、そこにボーカロイドみたいな感じで、えー喋れ、えーと、なんだ、文章さえ作れば、それを勝手に喋ってくれるものがあるので。

まあ、そいつらに喋らせれば良いということですよね。人が喋んなくて良くないって、どう考えてもたどり着いちゃうんですよね。で、僕は喋ることが本当に好きなので、一番奪われる領域だと感じてます。プログラミング以上にこっちの方が僕は怖いと思っていて、人が喋る方にどういう魅力付けができるか、結構今悩んでますね。

ただ、結局人の音声とかも、これ声って結局は音でしかない。音っていうことはただの信号なので周波数が決まっていて、まあそれの周波数の周期とかの強弱というのをつければ、再現できるはずなんですよ、本当は。

で、人の喋りとそういう機械が完全に合成して再現した音声の大きな違いは、人には絶対にムラが出てくるってところですね。声自体のムラもそうですし、抑揚とかスピード感とか間の取り方ですね。これが一定ではない。そこが人間らしさってところが出て、そっちが勝つか、それとも聞き取りやすさが勝つかみたいなところだと思ってます。

最終的には好みもありますよね。人の声の方が好きとか、人が喋っている方が、僕はちなみに好きですね、機械よりも。けど、いやいや聞き取りやすくて、そのまんまずっと聞いていればよく、途中で聞き取りにくかったり、うんうんって突っかかることがどうしても嫌だって方も全然いらっしゃる。

人間の役割と未来

最終的に好みに分かれると思うんですが、多分僕はエアに負けるんだろうなというのが僕の今のところの予想で。

喋りながら食べていくってどうやってファンを作っていくかだと思っていますね。

結局ファンがいて、その人がお金を落としてくれて、だから生きていける。お金じゃなくても物でもいいんですけど。

いわゆる茨の市だなと思いつつ、かつ喋ること、誰が喋るのも大事ですし、何を喋るのかっていうのもすごく大事で、コンテンツ力ももちろん物を言う世界であるので、レッドオーシャンでしかないんですよね。

マスを取るに行くんではなく、コアなファンを作りに行くっていうところに尽きるんだろうなと思っていて、今後はそういう未来を作らなければ生きていけないんだろうなと思ったりしますね。

それでもAIに食ってかかられるのはもうわかりきっている。だってミスがないもん。編集時間もいらないから、定期的に、極論言うと多分コマンド一発やっといて、こんな感じのものを出しておいてって言って、出てきた台本とか軽くチェックして、手直しを軽くして、これで音声出しておいてっていうのを投げれば良い。

明らか早いし、僕が体調悪かったりとか、例えばお酒飲んで2日酔いじゃないですけど、その日は酔ったとしても、最後これべって、手直しせず出すことも一応できますよね。

定期配信もかなりハードルが下がる。編集時間がほんとないのが一番差が出ちゃいますね。編集が大変だったり、編集できなくて定期配信できなかったみたいに結構あるんで。

15分収録すると編集、軽く2時間ぐらい僕まだ行っちゃいますね。どこまでこだわるかっていうのもあるんですけど、あんまこだわらなければ別に2時間とか30分で出せるんですけど、ちゃんと人が聞くものとしてこの辺のクオリティや担保したいってなったら1時間じゃまだ終わんないと思います。15分だと。

って考えたときに、機会だったらその辺一瞬でバーってやってしまって、BGMとかジングルとかタイミングと強弱っていうのを設定してしまえばいい。そんなんほんとボロの5分から10分でサクッと終わるんですよね。

いやー、どうやって勝負していけばいいんでしょうね。またどういうところが魅力に感じるのかっていうのを知りたい。ただそういう何を魅力に感じるかって多分そんな意識できてる人も多くはない。

また他の人から言われて、確かにそれ魅力って感じてたって出ることもたくさんある。

なるとやっぱり意識できてないものを掘り起こすのってやはり大量のデータが物を言う世界だと思っていて、そういうのは機械の領域なのでやっぱり機械の方が人のことを理解してるんじゃないかっていう風に感じてしまうので、ここが難しいですよね。

なのでやっぱり面白さとかそういう癖がある意味で人の魅力に戻るんじゃないかっていうのも思ったりはしてますね。

はい。まあでもいろんなポッドキャスターさんがおっしゃってますけど、音声だけで食べていってるって人はほぼいない…ってかいないんじゃないかな。

いるの?世界にはいるかもしれないですね。ほんと世界で有名なポッドキャスターさんっているらしくて。

それを本職にしてる人は別に例外だと思いますけど。

音声で生きてる人たちの中にはニュースキャスターとかアナウンサーの人たちとかいらっしゃると思うし、いろんな人たちいると思うんですけど。

もう一個僕らの領域でよくあるのはラジオとポッドキャストの違いですよね。

ラジオって基本的には委託をされて、その委託、発注元がこういうのを喋ってほしいとか発注元が期待することっていうのをラジオマンの人たちが喋りながら宣伝したり魅力付けをしたりっていうところですよね。

ポッドキャストは逆で、全部自分たち発信で自分たちがやりたい発信したいものを発信するというのがメインですね。

発信する媒体というか大元が会社だったら会社の発信とかになるので、どちらかというとラジオに近い感じはありますけど、社内の人がやってるんだったらポッドキャストですね。

でもその会社がやりたいものをやるっていうところなので、ポッドキャストは自分たちがやりたいことをやれるっていうのが本当に大きい。

そこに魅力を感じてもらえるか、最終的にはブランディングに帰ってくると思うので、そういうところはもちろんあると思いますけど。

コンテンツイコリ、結局ブランディングなのでそこは人としては変わらない気がしますし、人が何を魅力と感じるかっていうのはどうなんでしょうね。

AIがやっぱりそこをキャッチするのかどうかっていうのはありますね。

新しい魅力を作っていくっていうところも僕らがもしかしたらいけるかもしれないですけど、結局そんな人って変わらない。

思考性とか考え方、技術とかコンテンツとか文化が違うとは言っても、根っこのところはそんな変わらないとは思うので、

そういう意味でいくと新しいものを作るって結局掛け算だとは思うので、何を掛け算するかっていうのはそこは人の方が学習まだまだ強いんじゃないかなと思ってます。

少なくとも僕が生きてる間はそうなんだろうなと感じていて、そういうところで勝負していくしかないんだろうなと思ったりします。

ポッドキャストとラジオの違い

例えば僕の地元はやっぱり広島で、広島弁でやっぱりあえてひたすら喋る。

滅多に聞かないですね。東京に今住んでいて、僕も東京十何年住んでるんで、完全に広島弁抜けたんですけど、ここをあえてコテコテの広島弁でお話をしていくと、今までと全然違った。

そういう斜め上の考えですよね。綺麗な喋り方とかなんたらかんたらではなくて、癖のある喋り方をあえて入れることで魅力づけするって多分機械とかAIで発想そんな浮かばないと思ったりしてるんですよ。

例えばですけどね、こんな感じで何かしらの変化をつけていくしか勝負がないのかなと思ったりはしてますけど、

一旦は色々考えていきたいが、とりあえずポッドキャストの世界はAIによる自動化の波が来るんだろうなと、

全キャストが出た時点でもう多分みんなこれに来るんだろうなって思ったりしてますね。

なので2025年、もうちょっとポッドキャストは自動化の波というよりもブームが一回来ると僕は思ってますね。

意外とやらないかもしれないけど、どうなんだろうね。

ポッドキャストやりたい人たちって本当喋りたい勢が多いと思うので、機械じゃなくて自分の声で喋るっていうニーズは全然あるのかな。

その答えが今年出るんだろうなと思ってます。

というところで、オチはないですね。こんなことを今は裏だと考えていました。

参考になれば。

では、今回も終わりにしたいと思います。

また次回の配信でお会いしましょう。

バイバイ。

スター

エピソードをシェアする

メッセージを送信

Keeth Kiyohito Kuwahara

サマリー

目次

スター

コメント

こちらもおすすめ