Audiostart News
#258 Googleが音声認識・翻訳..

#258 Googleが音声認識・翻訳・音声合成が可能な大規模言語モデル「AudioPaLM」を発表

2023-06-28 02:06

#258 Googleが音声認識・翻訳・音声合成が可能な大規模言語モデル「AudioPaLM」を発表

ロボットスタート

ロボットスタート

Host

Googleが音声理解と音声生成のための大規模言語モデル（LLM）、「AudioPaLM」を発表しました。
「AudioPaLM」は、すでに発表されていた、音声ベースの「AudioLM」の機能と、テキストベースの大規模言語モデル「PaLM-2」の機能を統合したマルチモーダルアーキテクチャで、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるというもの。今回はこのシステムを紹介します。

【AD】
Audiostartでは、ポッドキャストに音声広告を掲載したい広告主を募集中です。詳細は以下のリンク先をご覧ください。
https://bit.ly/41jPwyu

【AD】
Audiostartでは、音声広告を掲載して広告報酬を受け取りたいポッドキャスターの方を募集しています。法人・個人問いません。詳細は以下のリンク先をご覧ください。
https://bit.ly/3GSVv5P

00:06

Googleが音声理解と音声生成のための大規模言語モデル、LLM、Audio PALMを発表しました。

Audio PALMは、すでに発表されていた音声ベースの大規模言語モデル、Audio LMの機能と、

テキストベースの大規模言語モデル、PALM2の機能を統合したマルチモーダルアーキテクチャで、

テキストと音声を処理、生成し、音声認識や音声翻訳などのアプリケーションに利用できるというもの。

今回はこのシステムを紹介します。

Audio PALMにより、音声翻訳タスクにおいて既存のシステムを大幅に上回り、

入力言語とターゲット言語の組み合わせがトレーニングで見られなかった多くの言語に対して、

ゼロショットの音声テキスト翻訳を実行する能力を備えているといいます。

また、短い音声プロンプトに基づいて言語間で音声を翻訳することも可能になっています。

具体的にできることとして以下の3つがあり、それぞれデモページで音声サンプルが紹介されています。

音声から音声への翻訳、スピーチトゥスピーチトランスレーション、

外国語の音声データを入力すると、入力されたデータと同じ話者、

イントネーションで英語に翻訳された音声データを生成する機能です。

音声からテキストへの翻訳、スピーチトゥテキストトランスレーション、

外国語の音声データを入力すると英語に翻訳したテキストを生成する機能です。

自動音声認識、ASR、外国語の音声データを音声認識してテキストを生成する機能です。

これらの3つの機能はサンプルページでJAを選ぶことで日本語の例を聞くことができます。

しかし現時点では残念ながら日本語はリソースの少ない言語となっており思ったよりクオリティは高くない印象です。

言語によって学習データ量に開きがあるため、日本語の学習については今後に期待したいところです。

ではまた。

02:06

コメント

こちらもおすすめ

192 近況 | NotebookLMのAudio Overview機能に驚く

#73 ChatGPTの音声会話がアップデート！どう変わった？ / GoogleのNative Speech GenerationでNotebookLMの音声概要を再現する

耳で学ぶAI、ロボシンク

【ポッドキャスト生成AI】難しい話も簡単に！雑談で教えてくれるAIツール？｜344

AIクリエイティブ

#227 Metaが音声用の生成AIモデル「Voicebox」を発表、音声合成・ノイズ除去・言語変換など超多機能

Audiostart News

Notebook LMスマホアプリがリリース！音声ポッドキャスト機能も実装！ながら聞き可能！AI最新情報2025年5月

KT＠読まないブログ -SNS/Tech最新とガジェット- ポッドキャスト版

#163 MetaがWhisper対抗の大規模多言語音声AIモデル「Massively Multilingual Speech (MMS)」を発表

Audiostart News

スクロール