00:06
Googleが音声理解と音声生成のための大規模言語モデル、LLM、Audio PALMを発表しました。
Audio PALMは、すでに発表されていた音声ベースの大規模言語モデル、Audio LMの機能と、
テキストベースの大規模言語モデル、PALM2の機能を統合したマルチモーダルアーキテクチャで、
テキストと音声を処理、生成し、音声認識や音声翻訳などのアプリケーションに利用できるというもの。
今回はこのシステムを紹介します。
Audio PALMにより、音声翻訳タスクにおいて既存のシステムを大幅に上回り、
入力言語とターゲット言語の組み合わせがトレーニングで見られなかった多くの言語に対して、
ゼロショットの音声テキスト翻訳を実行する能力を備えているといいます。
また、短い音声プロンプトに基づいて言語間で音声を翻訳することも可能になっています。
具体的にできることとして以下の3つがあり、それぞれデモページで音声サンプルが紹介されています。
音声から音声への翻訳、スピーチトゥスピーチトランスレーション、
外国語の音声データを入力すると、入力されたデータと同じ話者、
イントネーションで英語に翻訳された音声データを生成する機能です。
音声からテキストへの翻訳、スピーチトゥテキストトランスレーション、
外国語の音声データを入力すると英語に翻訳したテキストを生成する機能です。
自動音声認識、ASR、外国語の音声データを音声認識してテキストを生成する機能です。
これらの3つの機能はサンプルページでJAを選ぶことで日本語の例を聞くことができます。
しかし現時点では残念ながら日本語はリソースの少ない言語となっており思ったよりクオリティは高くない印象です。
言語によって学習データ量に開きがあるため、日本語の学習については今後に期待したいところです。
ではまた。