1. 白金鉱業.FM
  2. 60. Podcast革命のラストピー..
2022-10-08 31:06

60. Podcast革命のラストピース、高精度音声認識モデル"Whisper"

感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm にて歓迎です!
匿名でのお便りもgoogle formにてお待ちしております!

論文ポイント
Whisperは豊富な多言語音声データセットをシンプルなEncoder-Decoder Transformerモデルでマルチタスク学習した。結果的に人間に匹敵する精度・ロバスト性の音声認識能力を獲得した。
豊富なデータセットを用意しつつ、できるだけ低品質なデータを除外している点。英語の書き起こし以外にも、多言語の書き起こしや言語特定など複数のタスクをシンプルなsequence-to-sequenceの枠組みに落とし込んでおり、スケーラブルなモデルを獲得できる点が貢献と言えそう。

31:06

コメント

スクロール