1. AI Engineering Now
  2. #13: 最近のTTSについて語る ..
2024-12-26 21:35

#13: 最近のTTSについて語る 〜APIサービスから音声モデル作成まで〜

seyaとkagayaの二人ともハマっていて、最近ホットなTTSサービスについて雑談しました。


Shownotes:

https://voicevox.hiroshiba.jp/

https://aivis-project.com/

https://nijivoice.com/



出演者:

seya(⁠⁠@sekikazu01⁠⁠)

kagaya(⁠⁠@ry0_kaga⁠⁠)

サマリー

このエピソードで、合成音声技術、特にテキストスピーチ(TTS)の最近の進展が議論されています。さまざまなAPIサービスや音声モデル、特にIbis SpeechやNiji Voice、ボイスボックスを利用した実践的な体験が紹介されており、声質や自然さに関する選択の重要性についても言及されています。最近のTTSに関するポッドキャストでは、APIの重要性や音声モデルの制作に関する経験が共有されており、音質や収録技術、学習データの選定の重要性にも触れられています。

合成音声技術の概要
AI Engineering Nowの瀬谷と申します。 香谷さん、今日もよろしくお願いいたします。
香谷です。よろしくお願いいたします。
では、今日はですね、合成音声、 要はテキストスピーチ、文字から音声を生成する機械学習のモデル
っていうのを、ちょっと我々、 よく最近触ってたりするので、
ちょっとそれについて 雑談していこうかなと思っております。
私は、TTSはですね、本業でも音声を使った AIキャラとの会話体験みたいなものを作ろうとしていたりとか、
副業というか、趣味の動画制作とかでも、 ちょっとナレーションというか、
そういうところで使っていたりっていう感じですね。
で、今ってTTSってすごい選択肢が、 特に今月の頭から先月の末ぐらいに
特に日本語では選択肢が増えまして、 元々老舗としてはやっぱりゆっくり、
動画のゆっくりですね、があったりとか、
ボイスポックス、ズンダモンがすごい有名ですけど。
で、あとはスタイルベルトビットツーが、 多分去年ぐらいから割と日本語のナチュラルさがすごい高いぞ、
みたいなところで有名だったので、
そのモデルを作って自分でホスティングとかっていうところに、
最近増えたのが一つにibisスピーチっていうものと、
あとすごい声の種類が豊富なニンジボイスであったりとか、
またボイスピークさんとか、
また海外ですけど、11lovesとか、
あと一応ちょっと含めるか迷うところであるんですけど、
OpenAIとかGeminiのリアルタイムAPIとか、 そういうのもあったりとかで、
中谷さんはこの辺で触ってみたものとかってあったりしますか?
APIサービスと実践経験
そうですね、僕も多分今名前挙げてくださったサービスは一通り触ってますね。
僕は本業というよりかは完全に趣味なんですけど、
僕はそうですね、本当に最近全部AIに台本も作らせてニュースも選定させて、
しゃべらせてっていうポッドキャストをこっそり趣味で運営して、
YouTubeとか今流そうとしてるので、
それの適切なスピーチのところとかで結構いろいろ試してますね。
ちなみに今はどれを使っているんですか?
今はボイスボックス使っていて、
それはもうシンプルにAPIで利用料金みたいなところですね。
開発して自動化みたいなテストで結構いろいろガンガン回すので、
現実的にちょっとお財布的に無料で利用させていただけるボイスボックス、
今は使ってるって感じですね。
そうですよね、ボイスボックスのアプリインストールするだけでも全部使えるし、
APIサーバーもアプリ立ち上げるだけで立ち上がるっていうのがすごいですよね。
しかもDockerイメージ公開されてるので、
僕はデプロイして使いたいみたいな欲求は今のところないので、
Dockerイメージ引っ張ってきて、ローカルで立ち上げて、
ボイスボックスのAPIで音声合成してっていうのを動かすスクリプトみたいな、
プロジェクトみたいなのを手元で作って手元で動かして、
Podcastとか動画生成させてちょこちょこ開発してます。
11 LabosとかOpenAIのTTSとかも試しましたけど、
やっぱちょっと外国の方があったりするので。
そうですね、すごいハキハキ喋りつつ若干イントネーションがちょっと微妙だなっていう。
そうですね、結局。
そうですね、まさしくそんな感じの印象ではあるが、
パラメータチューニングしたらもうちょい変わるんだっけとかはやりきれてないから、
やってみたい気持ちはありますね。
なるほどな。
私の方の使い方で言うと、どっちもあれだな。
本業も副業も今のところIbis Speech使ってて。
そうなんだ。
本業の方は結構明確に自分たちで社員の人とかの音声をモデル自分たちで作ってみたいなことしてるので、
それをお手軽に動かせるIbis Speech使ってみましたっていう感じですね。
趣味の動画制作の方も、ブースとかでStyle Belt Bit 2のモデル販売してる人とかいたりして、
そこをちょっと買って動かしてみたりしてるんですけど、
そういう欲しい声探してたら、そういうモデル販売してる人に当たったのでみたいな、
その流れでっていう感じですね。
本業もIbis Speechなのか。
そうですね。Ibis Speechはさっきおっしゃってたように、
どっかのイメージとかも公開してくれてるので、
それクラドランにホスティングしてみたいな感じで動かしてたりします。
確かにな。
ちょっと趣味のやつは、
TTSのところちょっとひと段落したので、最近触れてないですけど、
Ibis SpeechとNiji VoiceのAPIは使いたいというか、切り替えてみたいですよね。
そうですね。Niji Voiceも声の種類がめちゃくちゃあるし。
そう、リリース直後とか触ったりとか、ちょこちょこ定期的に触ってましたけど、
久しぶりに覗くとめちゃくちゃ数が増えてきて。
めっちゃ増えてますよね。
その辺とかもね、ボイスボックス選んだら1ヶ月前、2ヶ月前、
その当時とかは自分が気に入ったというか、
できるだけアニメ声っぽくなくて感情表現できるだけ抑えめな感じの声を探したくて、
それを探していって、多少スピードとか抑揚とか調整、ボイスボックスでしたら、
一旦これでいいかなって思えるものに到達したので、
一回切り上げちゃったんで、そこで止まってるんですけど、
Ibis Speechとか、最近のIbis Speechのスピーチハブとか定期的に覗いたりしてますけど、
最近やっぱりモデルちょこちょこ増えてきてるとか、自分で作れるので、
そっち早く手を出したいなって感じがします。
声質と自然さの選択
ていうか本業でもやってるんですね、今。
これにびっくりなんですけど。
たまたまそういう機会がありましてというか、
音声やった方が楽しいよねみたいな感じでいった節もあるんですけど。
盛り上がってるしねって。
でも確かに実際IbisとかNijiVoiceみたいな選択肢が豊富になってきたっていうのは、
後押しになってる感はある気がしますね。
そうですね、確かに。
IbisとかVoiceBoxとかもそうですし、
NijiVoiceも個人とかで使っても確かに払える範囲なので、
企業とかだったらクラウドラウン動かす。
クラウドラウン動かすとかそうでもないですけど、
全然抵抗する気にならない感じで始められますよね。
そうですね。ではこのサービスというか声をどうやって選んでいくかみたいなところでちょっと話していきたいんですが、
でも今話したところと被ってますが、
割と多分一番重要なのは声質というか、
やっぱナレーションとかしていくときに女性なのか男性なのか、
おじいちゃんなのかおばあちゃんなのかとか、
そういうキャラ設定的なものを多分考えると思うんですけど、
それにイメージに合う声を探すみたいな感じで決めるみたいな感じで私は探してたんですが、
これでちょっと最初困ったのが、
おばあちゃんボイスを探してたことがありまして、
これ多分レアケースだと思うんですけど、
若い女性の声はめちゃくちゃあるんですけど、
おばあちゃんボイスがマジで全然なくて、
最近ボイスピークさんとか出してたりするんですけど、
この辺もちょっと需要によってオフさが変わってきてしまうなみたいなのを感じてたりしましたね。
あとは自然さみたいなものをどれくらい需要視するかみたいな話もあって、
最近のそれこそスタイルベルトビット2とかニジボイスさんとかは、
声の抑揚とかすごい自然ではあるんですけど、
そんなに自然さが…というのはボイスボックスとかゆっくりとかと比較するとですね、
それらの方が自然さはちょっと高いんですけど、
別にボイスボックスでも十分しているレベルであったりとか、
人間に近いんだけどちょっと微妙にちょっと遠いみたいなことを、
個人的にはたまに感じることもあって、
とかやってると、解説動画作ってるともはやゆっくりとかボイスボックスの方がみんな聞き慣れてるし、
ベターなんじゃないかなみたいな気持ちに、
この辺ってボイスボックスとか、最終的に今のところボイスボックス選んだと思うんですけど、
この辺ってなんか気になるなとかってあったりしました?
そうですね。感覚は一緒な気はしますね。
こいつの話とかもそうですし、
シリーズの話とかもそうですし、
シリーズの話とかもそうですし、
そうですね。感覚は一緒な気はしますね。
そうですね。感覚は一緒な気はしますね。
こいつの話とかもそうですし、
自然さとかが、なんとなく僕の見てる範囲とかですけどやっぱ、
アニメとかゲームのボイスとしての自然さみたいなところというか、
感情表現がちゃんとされてたりとか、
ボイスボックスも、何でしたっけ、ボイスボックスでも?みたいな、
もうちょっとシンプルなキャラが出てない、
ついてないみたいなのがあるんですけど、
結構シンプルな割と無機質ぐらいでいいなと思ってたので、
そういう意味とかで言うと同じく、
どっかイメージ配ってくれてるし、
モデルもそこそこ最初から数あって、
そこで満足するもの見つけたからっていう理由は大きいですけど、
ボイスボックスが良さそうだなと確かになりましたね。
11ロボスとOpenAIも良かったんですけど、
確かに外国のちょっとイントネーションは確かにって感じはするが、
11ロボスとOpenAIで試したとき楽だなって思ったのは、
アルファベットそのまま投げてもちゃんと読んでくれるってとこですね。
確かに。
ボイスボックスとかは辞書とか作んなきゃいけないから、
変換してるとかしてるんで。
いやー、それありますよね。
今Ibisスピーチ使ってますけど、Ibisスピーチでもそれありますね。
OpenAIのO1読ませたいときにO1だけ打ってると、
仕方ないんですけどO1って読んでくるんで、
ちょっとそこだけスクリプトでO1って文字列入ってたら、
カタカナでO1って差し替えるみたいな対応をやってたりして。
それをまたLMで自動で抽出して、
ボイスボックスのDictionaryに突っ込んで、
変換でいいやつを変換させてみたいなスクリプトをいっぱい組んでますね。
APIの重要性
結局にそうなってるんだよな。
そういう意味では英語系の何かとかは楽だった気がしますね。
こういう名詞とかは強かった気がする。
ラブにあたって今の話とちょっと似てるんですけど、
DX開発者の体験と言いますか、
やっぱりAPIは必須というか、
ボイスボックス、Ibisスピーチは同じフォーマットで提供してくれてるし、
2次ボイスも上がると。
これないと自動化ができないと言って過言ではないか。
APIがないやつそんなないか、最近は。
どうですかね。
単純に我々のユースケース的にAPIがなかったら即選択肢から戻しちゃってるから、
あまり意識に残ってない説はありそうですけど、
APIは必須というか、
やりたいのは入り口から出口まで自動化してとか、
それこそ解説動画とかリモーションで使って自動生成してとかが、
お互いなぜか趣味で似たようなことをやりたかったりしてるから、
自動化する末がないと我々のユースケース的にきついですね。
そうですね、確かに。
我々エンジニア目線で語りすぎるとちょっと偏ってるかもしれないな。
音声モデル制作の体験
そうですね、他のAPIない良いサービスとかもあるんだとは思いますね。
本当知らないだけで。
あと最後にちょっと私が今の会社で社員の人のモデルを、
音声モデルを作ってみたっていうのをちょっとやってみたんで、
モデル作ったのは私じゃなくて同僚の人なんですけど、
ちょっとその体験談をシェアして締めようかなという感じで、
スタイルベルトBit2で社員の人の発話している音声ファイルを
学習データとして使ってやってみたんですけど、
これが最初まずPCのマイクでミーティングの動画をもらって、
そこから学習させたやつだと思います。
そのPCのマイクでミーティングの動画をもらって、
そこから学習させたやつだと結構微妙というかノイズがめちゃくちゃ入ってきて、
すごい音割れしている感じの残念なモデルになっちゃったんで、
そこにですね、ポッドキャストのために買った高品質で音が取れるマイクが活躍しまして、
そういうので収録すると音質問題は良くなったんで当たり前ですけど、
音質、そもそも収録時点でめっちゃ大事だなというのと、
どんな発話データを取るかも結構テクニックがいろいろありそうだなという感じで、
最初台本同様とかそういうのを読み上げてもらうみたいなものをやってたんですけど、
それ以外にも雑談みたいなものをして、自然な会話とかをしてですね、
そうした方がご本人の普段通りのイントネーションとか笑い方みたいなものが取れてる感はあったので、
この収録に対しても何を読んでもらうかとか、普通の会話が良いのかとか、
その辺も結構プラクティスがありそうだなという感じで。
確かに。
これ結構面白かったですね。
他のスタイルベルト2の公開されているモデルたちとか見ても、
一つのモデルっていうよりはスタイルみたいなものをいくつか持っているみたいなケースがあって、
怒ってる時の声とか、悲しんでる時の声みたいな。
なので、そういう感情ごとに学習させるみたいなケースもあるんだろうなという感じで、
この辺の収録、学習テクニックとか、もしかしたらプロの方たちはすでにいろいろあるのかもしれないんですけど、
こういうの学んでいくのもちょっと面白そうだなという感じでしたね。
収録技術と興味の深化
確かにめちゃくちゃありそう。
確かにな。
こんな声のモデル作りたいなとかって考えたこととかってあります?
声のモデル作りたいな。
残念ながら私は声のモデル自体を作りたいという強いモチベーションは今のところはないかもしれない。
こういうモデル、こういう音声のモデル欲しいけど、
こういうアプリ作る時にこういうのが欲しいけどなかったら作るっていうのはなると思いますけど、
音声モデル自体は今のところは確かにないかもしれないな。
やってみたい気持ちはありますけどね。
そうですね。これそのためにやるのかっていうところはあるんですけど、
身内ネタとしてめちゃくちゃ盛り上がるんで、
その人の2、30分くらいの音声でめちゃくちゃ似た声を発してくれるようになるんで、
なるほどな。
結構受け狙いとしても割と良かったりしますね。
社内で何かニュースペースをしてやってみるか。
それだと本業で社内の人の音声を収録して作ったんですよね。
そうですね。
どういう仕事なんだ。
どうしよう。
詳細は一応控えておくか。
でもそういう楽しい仕事がありました。
いいですね。
その他TTSで最近思ったこととか話したいこととか。
TTSで最近思ったことは、TTSじゃないけど、
最近スピーチューテキストとかも初心者でいろいろ調べたりしているので、
これも趣味色はだいぶ強いですけど、
そっちも含めて結構音声もある。
だいぶ今興味は確かにあるっていうのと、
確かにモデル作り楽しそうだな。
それだとやっぱりあれじゃないですか。
我々のPodcastの音声で学習させてPodcastを自動化するっていう。
もう本末転倒なのかわかんない。
でも学習用データは今まさに収録してるし、
結構やりやすそうではありますね、確かに。
ですね。
それをやってだから何がしたいんだって言われると、
あんま何もしたいことはないんで、
作りたいものはないって状態ですけど。
でもモデル作り自体は割とシンプルというか、
コラボでスタイルバートビット2からコラボのリンクがあるんで、
そこから行って音声ファイルをアップロードしてポチポチするだけっていう。
そうですよね。
なかなか手軽でいい。
そうですよね。
もうちょっとリッチな何かやり方とかはあるのかもしれないですけど、
スタイルバートビット2とかだとソウルで学習できるからいいな確かに。
一瞬チラッとやってみようかなと思ってみた時には音声ファイルがなかったから
準備するのちょっとやめちゃいましたけど。
そうですね。準備するとこが一番めんどいですね。
話聞いても、だって社内の人の音声を収録しなきゃいけないんですよね。
そうですね。
結局そこが一番めんどくさそうって思っちゃった。
そうですね。
社内に簡易スタジオ、マイクをセットするだけだけど。
ちょっとそこは面白いからよかったですけど、何回もやってるとちょっとめんどくさいですね。
社内とかで社内の人のってやつだったら確かに楽しそうですね。
自分の声を自分の趣味で音声モデル作るために録るっていうのはちょっとやらないかもしれない僕は。
まあちょっと社内にも、社内で音声モデル作ってみませんかって提案してみますわ。
とりあえず通るかもしれないけど。
たぶんノリノリな人は1人ぐらいは出てくると思うんで。
1人しかいないのか。寂しいな。
もう1人の音声モデルしかできないでしょ。
そうですね。
でもやっぱ自分の声聞きたくないからやめてくれっていう人は当たり前ながらいましたね。
そうなんだよな。ほんとそれなんだよな。
気持ちはわかるというか別に私も自分の声そんな好きじゃないからすごいわかる。
じゃあ今回のTTS会についてはこんな感じで締めましょうかね。
半分ぐらいは我々の趣味会。
今回もありがとうございました。
ありがとうございました。
21:35

コメント

スクロール