AIによる完全自動生成のポッドキャスト番組
Audiostart Newsへようこそ。ロボットスタートによる音声業界の最新情報をお伝えする番組です。
ポッドキャストやAIを専門とするジャーナリストのポール・マクナリー氏が、3人のホストがニュースについてチャットするポッドキャスト番組の配信を開始しました。
この番組の特筆すべき点は、エピソード作成、発話まで全て人間の介在なしに、完全にAIだけで作られている番組ということです。
今回はこの番組を紹介したいと思います。
ポール・マクナリー氏は、チャットGPTを活用するようになってから、日々のニュースを訓練された3人の架空の声によるディスカッション形式で、
10分間のポッドキャストのエピソードを生成することができると考え、実際にその生成作業用のスクリプトを完成させたというもの。
番組は、2名のメインホストがニュースの詳細を説明した後、3人目のホストはそのニュースの行く末を予測させる構成になっています。
これを実現するための仕組みとして、まずテーマとするニュース記事は、Googleニュースからその日のトップニュースを自動抽出したもので、
抽出したニュースはチャットGPTを使って事実をリストアップして、そこからエピソード台本の原稿をAIで生成します。
ニュースの行く末を予測するのもチャットGPTによる生成です。
原稿を読み上げる部分は、各ホストがそれぞれ異なる声で発言するため、
エピソード台本をホストのセリフごとに分割し、それぞれのセリフごとに音声合成を行ってMP3ファイルを個別に生成し、
最終的にエピソード台本通りの一つのMP3ファイルとしてまとめる作業を行っているとのこと。
音声合成エンジンは、イレブンラボのGenerative Voice AIを利用しているそうです。
ポール・マクナリー氏は、このシステムの開発においていくつか問題を感じたそうです。
1点目として、当初毎日大量のエピソードを自動生成する予定でしたが、
音声合成はキャラクターごとにコストがかかるため現実的ではなかったこと。
2点目として、エピソード1本の生成にかかる時間が予想より長く10分近くかかること。
3点目として、エピソードの内容が期待していたより退屈だったことを挙げています。
AIホストのリアルさと音声合成の高品質
一方、3人のAIホストのおしゃべりは信じられないほどリアルに聞こえ、大きな可能性があることはわかったとも語っています。
ポッドキャスト番組、レベロップAIにて、実際にAIだけで作られたエピソードを聞くことができます。
聞いてみた感想は、内容はともかく、人間が喋っているように聞こえるリアルさがすごい、の一言です。
AIだとわかって聞いても、本当にAI、と思うレベルです。
誰もが驚くと思いますので、ぜひ聞いてみてください。
この印象の良さは、イレブンラボの音声合成のレベルの高さもあるかと思います。
なお、イレブンラボは日本語にも対応していますが、僕が使った限り、日本語は今のところ品質が高いとはとても言えない状況なのが残念です。
開発者のポール・マクナリー氏は、近々このAIツールのアプリを一般公開する予定とのこと。
日本語に対応しているかはわかりませんが、これはぜひ試してみたいツールですね。
ではまた。