1. Audiostart News
  2. #258 Googleが音声認識・翻訳..
2023-06-28 02:06

#258 Googleが音声認識・翻訳・音声合成が可能な大規模言語モデル「AudioPaLM」を発表

Googleが音声理解と音声生成のための大規模言語モデル(LLM)、「AudioPaLM」を発表しました。
「AudioPaLM」は、すでに発表されていた、音声ベースの「AudioLM」の機能と、テキストベースの大規模言語モデル「PaLM-2」の機能を統合したマルチモーダルアーキテクチャで、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるというもの。今回はこのシステムを紹介します。


【AD】
Audiostartでは、ポッドキャストに音声広告を掲載したい広告主を募集中です。詳細は以下のリンク先をご覧ください。
https://bit.ly/41jPwyu

【AD】
Audiostartでは、音声広告を掲載して広告報酬を受け取りたいポッドキャスターの方を募集しています。法人・個人問いません。詳細は以下のリンク先をご覧ください。
https://bit.ly/3GSVv5P
00:06
Googleが音声理解と音声生成のための大規模言語モデル、LLM、Audio PALMを発表しました。
Audio PALMは、すでに発表されていた音声ベースの大規模言語モデル、Audio LMの機能と、
テキストベースの大規模言語モデル、PALM2の機能を統合したマルチモーダルアーキテクチャで、
テキストと音声を処理、生成し、音声認識や音声翻訳などのアプリケーションに利用できるというもの。
今回はこのシステムを紹介します。
Audio PALMにより、音声翻訳タスクにおいて既存のシステムを大幅に上回り、
入力言語とターゲット言語の組み合わせがトレーニングで見られなかった多くの言語に対して、
ゼロショットの音声テキスト翻訳を実行する能力を備えているといいます。
また、短い音声プロンプトに基づいて言語間で音声を翻訳することも可能になっています。
具体的にできることとして以下の3つがあり、それぞれデモページで音声サンプルが紹介されています。
音声から音声への翻訳、スピーチトゥスピーチトランスレーション、
外国語の音声データを入力すると、入力されたデータと同じ話者、
イントネーションで英語に翻訳された音声データを生成する機能です。
音声からテキストへの翻訳、スピーチトゥテキストトランスレーション、
外国語の音声データを入力すると英語に翻訳したテキストを生成する機能です。
自動音声認識、ASR、外国語の音声データを音声認識してテキストを生成する機能です。
これらの3つの機能はサンプルページでJAを選ぶことで日本語の例を聞くことができます。
しかし現時点では残念ながら日本語はリソースの少ない言語となっており思ったよりクオリティは高くない印象です。
言語によって学習データ量に開きがあるため、日本語の学習については今後に期待したいところです。
ではまた。
02:06

コメント

スクロール