音声合成の多機能性と特徴
Audiostart Newsへようこそ。
この番組は、ロボットスタートによる音声広告やポッドキャストなど、音声業界の最新情報をお伝えする番組です。
メタが汎用性の高い生成AI活用の音声合成モデル、ボイスボックスを発表しました。
文脈内の学習により、オーディオ編集、サンプリング、スタイライズなど、特別に訓練されていない音声生成タスクを実行できるとのこと。
今回はこのニュースをお伝えします。
まず、ボイスボックスの特徴を紹介します。
音声合成にとどまらず、音声編集、ノイズ除去、言語変換など多機能なことに驚きました。
インコンテクスト音声合成。
2秒程度の短い音声サンプルを使って、音声スタイルに合わせた音声合成を行うことが可能。
わずか2秒程度のサンプルというは驚異的です。
音声編集とノイズリダクション、音声全体を録音し直すことなく、ノイズに邪魔された音声の一部を再現したり、言い間違えた単語を置き換えたりすることができます。
例えば、犬の鳴き声に邪魔された音声の一部を切り取り、ボイスボックスにその部分を再生成するよう指示することができます。
これはポッドキャスト収録などで活用したくなる機能ですね。
言語横断的なスタイル変換。英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語のテキストとスピーチのサンプルがあれば、
サンプルとテキストが異なる言語であっても、ボイスボックスはそれらの言語のテキストの音声合成が可能とのこと。
ボイスボックスの仕組みと学習方法
例えば、英語で話した音声データを同じ声のテイストで、フランス語にした音声データに変換できるというわけです。
現時点では日本語に対応はしていませんが、日本語で話したデータが英語に変換できたら、ポッドキャスターの海外展開も容易になりそうで夢がありますね。
多様な音声サンプリング、音声生成のデータを多様なデータから学習することができることで、より効率よく精度を高めることが可能になったとのこと。
続いて、ボイスボックスの仕組みを簡単に紹介します。
ボイスボックス以前の音声合成AIは、入念に準備されたデータを用いて、タスクごとに特定の学習を行う必要がありました。
一方、ボイスボックスは非自己回帰的生成モデルであるフローマッチングをベースに構築し、テキストと音声を非決定性マッピングによりラベル付けなしで学習可能な仕組みになっているとのこと。
英語など6カ国語のパブリックドメインオーディオブックに収録された5万時間以上の録音音声とトランスクリプトを使用して学習した結果、
ゼロショット音声合成において、現在の最新英語モデルバルギーを明瞭度と音声類似度の両方で上回り、さらに20倍もの高速化を実現できたそうです。
なお、この音声AIは悪用される可能性があるため、メタは現時点ではボイスボックスのモデルやコードを一般に公開していません。
仕組みを解説する論文とサンプルデータの公開までとなっています。
懸念は確かにありますが、ポッドキャストのポストプロダクション工程においても非常に有用なツールとなりそうで、製品版の登場を心待ちにしたいところです。
ではまた。
今回のニュースは以上です。もっと詳しい情報を知りたい場合、オーディオスタートニュースで検索してみてください。
ではまたお会いしましょう。