メタのMMS
オーディオスタートニュースへようこそ。
この番組は、ロボットスタートによる音声広告やポッドキャストなど、音声業界の最新情報をお伝えする番組です。
メタが1100以上の言語に対応する大規模な音声AIモデル
マッシブリマルチリンガルスピーチ、MMSを発表しました。
オープンAIのウィスパーに対抗する音声AIモデルとして注目度も高いサービスになると思いますので、
今回はこのサービスを簡単に紹介します。
今回メタが発表したMMSの特徴は、1100以上の言語に対応していることにあります。
既存の音声モデルは、地球上で話されている7000以上の言語のうち、100言語程度のみをカバーするものでした。
新たな言語の音声モデルを構築するためには、大量のラベル付きデータとして何千時間もの音声と書き起こしが必要になります。
しかし問題なのは、ほとんどの言語では必要なデータが存在していないことです。
しかも、私たちが生きている間に半分近くの言語が失われる危険性があるといいます。
これらの課題を解決すべくメタのMMSは、
自己教師あり学習、Web2Vec2.0、1100以上の言語のラベル付きデータ、
4000近い言語のラベルなしデータを組み合わせることによって対応言語数を増やす取り組みを行ったとのこと。
興味深いのは、データの一部には宗教的なテキストとして新約聖書などを活用したとのこと。
聖書は世界各国様々な言語で翻訳されており、
さらにそれを朗読するデータも多く公開されているためデータセットとして有用だったそうです。
この結果、MMSでは音声認識、音声合成を従来の約100言語から10倍以上の1107言語に拡張、
言語識別についても従来の40倍以上の4000言語以上に拡張できたとのこと。
今回の発表では様々なデータの検証結果も紹介されました。
MMSの性能
音声認識について、元のデータは男性の声が多かったものの、
MMSでの検証結果は男性話者と女性話者の文字単位のエラー率はほぼ変わりなく、
潜在的なジェンダーバイアスはないと言えることがわかったそうです。
文字単位のエラー率は、通常対応する言語数が増えるにつれて性能は低下する傾向にありますが、
MMSの場合は61言語から18倍以上の1107言語に増やしても、エラー率は約0.4%しか増加しませんでした。
単語単位のエラー率をMMSとオープンAIのウィスパーと比較した結果も公開されました。
ウィスパーに比べて、エラー率が半分に低下したことがわかります。
対応言語数は11倍多いにもかかわらず、より性能が高いのはすごいです。
言語識別の精度についても、100言語に対応する既存サービスに比べて4000言語を識別できるMMSの方がエラー率が少ない結果となっています。
MMSは音声合成についても高い品質で1100言語以上に対応できているとのこと。
実際にデモ動画を聞いてみても全くわからない言語ですが、なめらかでリアルな感じがします。
今後さらに精度、品質を高め、対応言語を増やしていくために、
より詳細の情報をまとめた論文とGitHubも公開されています。
興味のある方は併せてご覧ください。
ではまた。
今回のニュースは以上です。
もっと詳しい情報を知りたい場合、
オーディオスタートニュースで検索してみてください。
ではまたお会いしましょう。
チャンネル登録をお願いいたします。