1. Audiostart News
  2. #27 Googleが100以上の言語に..
2023-03-09 01:51

#27 Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表

Googleが100以上の言語に対応する音声認識AI「Universal Speech Model (USM)」を発表しました。
昨年11月にGoogleは世界中の言語をサポートするための「1000 Languages Initiative」を発表しており、今回はその第一歩として自動音声認識 (ASR)サービス「Universal Speech Model (USM) 」についての成果を公開したものになります。
Googleが取得した300以上の言語にわたる1,200万時間の音声と 280億文のテキストでトレーニングされた20億のパラメーターを持つ最先端の音声モデルとなっており、英語や中国語と違って、トレーニングデータが不足しがちな話者の少ない言語でも、微調整を伴う自己教師あり自動学習を使うことで音声認識 (ASR) を効率よく構築できるというもの。
「Universal Speech Model (USM) 」を使ってYouTubeのキャプションを生成した結果、73の言語で平均30%未満の単語エラー率を達成できたことも発表されました。最近リリースされたOpen AIの音声認識モデル「Whisper (large-v2)」と比較してもエラー率が低かったそうです。
この領域の進化は目覚ましいものがありますね。これからの展開も楽しみです。
ではまた!
00:04
オーディオスタートニュースへようこそ。
この番組は、ロボットスタートによる音声広告やポッドキャストなど、音声業界の最新情報をお伝えする番組です。
Googleが100以上の言語に対応する音声認識AI、ユニバーサルスピーチモデルUSMを発表しました。
昨年11月にGoogleは世界中の言語をサポートするための1000ランゲージイニシアティブを発表しており、
今回はその第一歩として、自動音声認識ASRサービスユニバーサルスピーチモデルUSMについての成果を公開したものになります。
Googleが取得した300以上の言語にわたる1200万時間の音声と、280億文のテキストでトレーニングされた20億のパラメーターを持つ最先端の音声モデルとなっており、
英語や中国語と違って、トレーニングデータが不足しがちな話者の少ない言語でも、
微調整を伴う自己教師あり、自動学習を使うことで音声認識ASRを効率よく構築できるというもの。
ユニバーサルスピーチモデルを使ってYouTubeのキャプションを生成した結果、
73の言語で平均30%未満の単語エラー率を達成できたことも発表されました。
最近リリースされたオープンAIの音声認識モデル、WhisperLargeV2と比較してもエラー率が低かったそうです。
この領域の進化は目覚ましいものがありますね。
これからの展開も楽しみです。
ではまた。
今回のニュースは以上です。
もっと詳しい情報を知りたい場合、オーディオスタートニュースで検索してみてください。
ではまたお会いしましょう。
01:51

コメント

スクロール