60. Podcast革命のラストピース、高精度音声認識モデル"Whisper"

感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm にて歓迎です！
匿名でのお便りもgoogle formにてお待ちしております！

論文ポイント
Whisperは豊富な多言語音声データセットをシンプルなEncoder-Decoder Transformerモデルでマルチタスク学習した。結果的に人間に匹敵する精度・ロバスト性の音声認識能力を獲得した。
豊富なデータセットを用意しつつ、できるだけ低品質なデータを除外している点。英語の書き起こし以外にも、多言語の書き起こしや言語特定など複数のタスクをシンプルなsequence-to-sequenceの枠組みに落とし込んでおり、スケーラブルなモデルを獲得できる点が貢献と言えそう。

openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
Introducing Whisper
Whisper - a Hugging Face Space by openai （ブラウザ上デモ）
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた - DevelopersIO
miyagawaさんのtweet
音源分離ソフトDemucs V3についてのtweet

スター

エピソードをシェアする

メッセージを送信

スター

コメント

こちらもおすすめ