Audiostart News
#27 Googleが100以上の言語に..

#27 Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表

2023-03-09 01:51

#27 Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表

ロボットスタート

ロボットスタート

Host

Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表しました。
昨年11月にGoogleは世界中の言語をサポートするための「1000 Languages Initiative」を発表しており、今回はその第一歩として自動音声認識 (ASR)サービス「Universal Speech Model (USM) 」についての成果を公開したものになります。
Googleが取得した300以上の言語にわたる1,200万時間の音声と 280億文のテキストでトレーニングされた20億のパラメーターを持つ最先端の音声モデルとなっており、英語や中国語と違って、トレーニングデータが不足しがちな話者の少ない言語でも、微調整を伴う自己教師あり自動学習を使うことで音声認識 (ASR) を効率よく構築できるというもの。
「Universal Speech Model (USM) 」を使ってYouTubeのキャプションを生成した結果、73の言語で平均30%未満の単語エラー率を達成できたことも発表されました。最近リリースされたOpen AIの音声認識モデル「Whisper (large-v2)」と比較してもエラー率が低かったそうです。
この領域の進化は目覚ましいものがありますね。これからの展開も楽しみです。
ではまた！

00:04

オーディオスタートニュースへようこそ。

この番組は、ロボットスタートによる音声広告やポッドキャストなど、音声業界の最新情報をお伝えする番組です。

Googleが100以上の言語に対応する音声認識AI、ユニバーサルスピーチモデルUSMを発表しました。

昨年11月にGoogleは世界中の言語をサポートするための1000ランゲージイニシアティブを発表しており、

今回はその第一歩として、自動音声認識ASRサービスユニバーサルスピーチモデルUSMについての成果を公開したものになります。

Googleが取得した300以上の言語にわたる1200万時間の音声と、280億文のテキストでトレーニングされた20億のパラメーターを持つ最先端の音声モデルとなっており、

英語や中国語と違って、トレーニングデータが不足しがちな話者の少ない言語でも、

微調整を伴う自己教師あり、自動学習を使うことで音声認識ASRを効率よく構築できるというもの。

ユニバーサルスピーチモデルを使ってYouTubeのキャプションを生成した結果、

73の言語で平均30%未満の単語エラー率を達成できたことも発表されました。

最近リリースされたオープンAIの音声認識モデル、WhisperLargeV2と比較してもエラー率が低かったそうです。

この領域の進化は目覚ましいものがありますね。

これからの展開も楽しみです。

ではまた。

今回のニュースは以上です。

もっと詳しい情報を知りたい場合、オーディオスタートニュースで検索してみてください。

ではまたお会いしましょう。

01:51

コメント

こちらもおすすめ

#38 AIアシスタントは最新AIチャットボットと融合する日はくるのか？

Audiostart News

#87 アドバンスト・メディアのAI音声認識「AmiVoice」がKDDIの自動音声応答に採用

Audiostart News

#15 NOBORDERが「AIアナウンサー GPT」を発表

Audiostart News

#100 デジタル音声広告やポッドキャストの最新情報をお届けする「Audiostart News」記事100本目達成！

Audiostart News

#19 音声合成のエーアイがChatGPTとオルツLHTM-2を活用した実証実験開始

Audiostart News

#163 MetaがWhisper対抗の大規模多言語音声AIモデル「Massively Multilingual Speech (MMS)」を発表

Audiostart News

スクロール