#15: AIとの音声対話を作る時の技術選定と工夫ポイント

音声対話の導入

はい、AI Engineering Nowの瀬谷です。香川さん、よろしくお願いします。

すいません、ドンかぶった。久しぶりなんで、よろしくお願いします。

はい、お願いします。今日はですね、AI音声対話について話していこうかなと思っておりまして、

結構私がですね、この1、2ヶ月くらい、割とそのAIとの音声対話を作る機会があったので、

その過程でいろいろ調べたりもしたので、ちょっとそれについて語っていけたらなと思っております。

最初、アイスブレイク的になんですが、香川さんはAIと音声対話とかって何かしらでされたことってあったりしますかね。

音声対話は、普通にChat.jpgのボイスモードとかリアルタイムAPIとか、

最近あんまやってないんですけど、おかしい名前なんだっけな、リアルタイムボイスAPIのみたいなプラットフォームを出してる会社があって、

リアルタイム、そこの会社のAPI使って自分ちょろっと英会話を作ったりしたことがあったので、話しかけたりとか、

あと最近あれですね、対話じゃないですけど、スーパーウィスパーとか、

あの辺とかで普通に音声でしゃべる機会とかはだいぶ増えましたけど、

対話で言うと確かにそんなにやってないかもしれない。英会話の練習を作っているぐらいかもしれない。

私はそんなに日常的に話してるかって言われると微妙なんですけど、

ことも結構YouTubeとかでもバズったサービスだと思うんですけど、

あれにちょっと落ち込んでる時とかに話すみたいな、そういうのをやってたりしますね。

ことも最初リリースした時にAndroidとかなくて、

マックに落とした時でやっぱりその時動かなくて、結局乗り過ごしたから実はそんなに話はないですね、ちょろっとしか。

あれ結構合図地の取り方とかもそうなんですけど、

あの取り方とか割と普通にユーザーとして使っててそんなに違和感なくて、

いざ自分で音声対話システムを作ってみて、

いろいろ工夫を入れてるんだろうなっていうのを感じたので、

今日はそんなところを話していければなと思います。

技術選定とユースケース

音声対話システムを作る時のオプションみたいなところについて、

ちょっと最初に軽く話していこうかなと思うんですけれども、

大きくは2つで、

1つ目がさっき香谷さんがChatGPTとか、

その手前のお名前はわかんないんですけど、

もうおそらく使われていたいわゆるスピーチトゥスピーチ、

リアルタイムAPIとか呼ばれてるやつですね。

を使うっていうのが1個目のオプションで、

2個目が多分こっちの方がもしかしたら、

私の観測範囲内では多い気がしてるんですけど、

文字起こし、ユーザーの発話を文字起こしして、

それに対してLLMで返信を考えさせて、

でその返信をさせて、

その返信をさせて、

でその返信の内容をTTSで音声にするっていう、

この大きく2つがあるかなって思っていて、

もしかしたら他にもあるかもしれないですけど。

で、音声対話を作ろうってなった時に、

私の会社の例だと、

キャラにとお会話するみたいな、

そういうユースケースだったんですけど、

最初そのリアルタイム、

っていうところで試してたんですけど、

ちょっとそのオープンAIの動画素振りしてみて、

感じた、ちょっと使えそうにないかなって感じた背景としては、

ちょっとこれベンチマークとかはそこまで見てないんで、

実際どうかっていうのは分かんないんですけど、

なんていうか、

実際に使えるかどうかっていうのは分からないんですけど、

で、ベンチマークとかはそこまで見てないんで、

実際どうかっていうのは分からないんですけど、

なんていうか、そこまで賢くない感があったりとか、

あと声の選択肢も結構その、

5、6種類ぐらいの中からしか選べなくて、

バッチリ合う日本語発話の音声モデルがないなーとか、

あとちょっとお値段が高かったりとか、

また細かいプロンプトの制御みたいなものが、

できないシステムプロンプト的なものを渡せるんですけど、

あとはこういう発話をしてみたいなAPIとかもあったりするんで、

そういうので工夫できなくはないんですけど、

現状のだとちょっと、

キャラモノで使うみたいな用途ではなんか、

辛いなっていう印象を受けましたっていう感じですね。

この辺のリアルタイムAPIとかって、

触ったこととかってあったりします?

リアルタイムAPIは業務でとかってのはないですけど、

普通に触ってみてとか、

プライベートでちょっと試して、

試作してみてぐらいですかね。

あとさっき話した、

ちょっと裏調べて思い出したんですけど、

リテルAIってやつが、

アーティストです。

まさしくリアルタイムAPIみたいなやつとかを出してる。

この温泉ワイルドなんでしょうね。

フルスタックにやってくれるプラットフォームみたいな感じなんですけど、

これはあれなんですよ。

そんなにそこまで作り込んでないんですけど、

ジェネラルプロンプトみたいな、

システムプロンプトみたいなものはもちろんあるんですけど、

複数のプロンプトとかをステータとか条件とか、

コンディション元に分岐するみたいな、

プロエンジニアリングっぽいやつも含めたりするんですよ。

ワークフローっぽいやつとか。

それを駆使したら、

こんな感じの書いておいたときにはこっちに行く、

みたいな制御とかは、

触ってて遊んでたときにはできそうな、みたいな感覚。

そのプラットフォームにはなってました。

ちょっと精度とかはそんなに、

一気に作ってないんで、

分かんないですけど。

なるほど。

オープンAIのとかも、

探してみたらそういうオプションがあったりするのかな。

どうなんですか。

そこまでなさそう、まだ。

結構たまに、

コールセンターとかで、

使えるんじゃないかみたいな話とか記事、

見かけたりはするんですけど、

知識をしっかりプロンプトで与える、

みたいなものが、

APIドキュメント読んでる感じ、

できそうな印象はなかったので、

実際のところ、

あれどうなんだろうなっていうのを見てて、

そんな気持ちで長寝てましたっていう感じですね。

最新の音声合成技術

あとSPS、

最近見かけたニュースを、

ちょっと軽く触れていくんですけど、

JMoshiっていう、

すごいめちゃくちゃ自然なアイドチ機能が、

アイドチ機能って言ったらあれか。

すごい自然なSPSのモデルを、

公開していた方がいて、

これまだ自分で、

なんだっけな。

なんかボイスクローニングして、

独自のモデル作るみたいなのは、

頑張ったらできるんでしょうけど、

シュッとはできなさそうだったので、

今後に一般化されるのを期待かな、

っていう感じだったんですけど、

これめちゃくちゃ、

ユーザーが会話してる最中に、

いい感じに合図ち挟むみたいな、

挙動をしてくれたんで、

こういう技術というかモデルが出てくるのも、

結構今後期待だなっていう感じですね。

この辺は今後にいきたいかな、

っていう感じですね。

2個目のオプションは、

これまさに私がやっているところなんですけど、

文字起こしして、

アイドチ機能を使って、

自分の機能を使って、

アイドチ機能を使って、

自分の機能を使って、

文字起こしして、

LLMに文章、

返信文を生成させて、

TTSで話してもらうっていうパターンですね。

これは、

すごいシンプルな話なんですけど、

文字起こし、

そうですね。

課題としては、

やっぱり参考値挟むんで、

レイテンシー、

どのステップもちゃんと、

ちょっと早くしなきゃいけないみたいな、

ところがあったりとか、

ちょっと技術選定というかも、

ちょっと三つ挟まったりとかして、

楽しいといえば楽しいし、

ちょっと面倒といえば面倒みたいな、

ところがあったりするっていう感じですね。

文字起こしは、

なんか結構日本語の場合、

国産の言葉ウィスパー、

言葉テクノロジーさんが出してるやつであったりとか、

Reason SpeechとかStore、

オープンAIのウィスパーとかも、

もちろんあったりはするんですけど、

そういう国産のものとかも、

結構いい感じの速度と、

文字起こしの精度でやってくれるっていう感じですね。

LLMは、

賢さももちろん多少大事なんですけど、

それより速さみたいなところが、

その体験っていうところで結構大事になってきたりするので、

最近だとやっぱジェミニフラッシュが安いし速いし、

みたいなところで使うのが多めかなっていう感じですね。

DTSはこれ前回か前々回ぐらいで、

DTS会みたいなものがあったので、

ちょっとそこでも話しましたが、

VoiceboxとかNigibVoiceさんとか、

StylevertBit2、

自分で用意したりとかっていう感じですね。

私は今、会社ではStylevertBit2のモデルを自分で作って、

Iris Speechを使って動かさせてもらってるみたいな感じですね。

この辺の技術で気になるところとかあったり。

文字起こしは今、国産の言葉ウィスパーとか、

リーズニングのやつ、リーズニングスピーチでしたっけ。

リーズニングスピーチ。

リーズニングスピーチか。リーズニングっていつもこんがらがる。

リーズニングスピーチを普通にどっかにホスティングして使ってるんですか、今。

そうですね。言葉ウィスパーを、

ファースターウィスパーっていうウィスパーランタイムみたいなものがあって、

それに言葉ウィスパーをロードして、

そのウィスパー用のサーバーみたいなものを

クラウドランとGPUの活用

クラウドランで動かしてるみたいな感じですね。

クラウドランで動かしてるんですね。

ちょっとこれちゃんと速度のベンチマークとか、

自分たちで計測したわけじゃないんで、分かんないんですけど、

GPUを使ったほうが早そうで、

クラウドランだと一応GPUあるんですけど、

GPU登場したのが去年の夏とかで、

しかも今は一部のリージョンでしか使えないみたいなところがあって、

そういうAWSのGPU状況がどうか分かんないんですけど、

もしかしたらそういう詰まりというか、

落とし穴みたいなものがあるかもしれないなっていう感じですね。

AWSのGPUどうなってるんだっけな。

全然知らないな正直。

どっちは結局でも安いんですかね、それで言うと。

さすがにセルフホスティングしたほうが安いのかな。

なんですかね、CPUもなんだかんだ高いからな。

結構AWSのBedrockとかの、

それこそDeepSeekのR1モデルとか、

ホスティングできるようなカスタムモデルインポートみたいなのとか、

試そうと思っても、

ちょっと僕がざっと見た、そんな詳しくないので見た限りだけど、

結構高いんですよ。

これホスティングして使うぐらいだったら正直、

R1の性能が本当に必要とかじゃないんだったら、

普通にChromeの3.5ソネットでいいやって思うぐらいはそこそこ高かった気がしてて。

しかも稼働してる時間単位とかで課金になる。

そうなんですよね。

B2B SaaSとかだとやっぱりリクエスト数少ないので正直、

2Cと比べると絶対元取れないよなっていう、

その課金方式とか。

そうですね。

でもそうなんですよね。

あと一応サーバレスGPUみたいなオプションはあったりはするんですけど、

それはそれで、

レイテンシーというか、立ち上がるとコールドスタート問題が出てきたりするので、

ちょっと悩ましいなっていう。

確かにね。

TTSのところは趣味でポッドキャスト自動生成するとか、

YouTubeのショート動画、字幕付け自動生成するみたいなの、

趣味で作ってるぐらいでしかやってないんで、

結局何が一番TTSだとどれがベターなんだっけっていうのは普通に気になります。

ボイスボックスもスタイルバーとビットツーもニジボイスも、

あとIbis Speechも全部サーバーとあるんですけど、

そんな深く比較検証とか使い込んだわけじゃないので。

どうなんですかね。

ちょっとお値段的な話で言うと、

ニジボイスだけ重量課金っていうのが長期で使っていくときに

お値段厳しそうだなとか。

それで言うと、私最近趣味のTTS使った開発はボイスピークっていうものを使ってるんですけど、

これ買い切り型で1万円とかそんな感じなんですけど、

これだとプロの声優さんが元の音声を学習のためにたくさん話してくれてたりするので、

精度もいいしみたいな。

でもボイスピークさん、英語とかの文章を与えるときに

アルファベットを全部読んでいくみたいな挙動があったりとかして、

ボイスピークはさすがに読み上げるけど、

そういう文字列があったときにVOICEみたいに読んでいくみたいな。

ニジボイスとかIbis Speechとかでそういうことって、

たまにあるから辞書登録はするんですけど、

そういうたまにあるのがあるなみたいなところですね。

でもそれぐらいしかそんなに比較材料がない気がしますね。

TTSは正直、仕事でTTSをやる機会はまださすがにないというか、

TTS技術の比較

なかなかない気がするな、今の会社にいる限り。

B2B SaaSでカスタマー、さっき言ったようなコールセンターとかかな。

そうですね。本当にど直球な何かとかに手を出す機会がない限り、

TTSまではない気がしますね、なかなか。

喋らせる意味がほぼない、基本。

ではちょっと次のトピックで、ちょっと微妙にカテゴリー違うんですけど、

なんかボイスクローニング界隈、界隈って呼ぶのか分からないけど、

ボイスクローニングとかも結構いろんなサービス出てて、

それこそ弊社もちょっとユーザーとか特定の人物に似せた声みたいなものが

すぐ出せるみたいな体験が提供できるといいかもねみたいなところで、

ちょっと調べてきたりしたことがあったんですけど、

みんな大好きなのか分からないが有名なEleven Labとか、

スピーチファイっていうところとか、

あと最近話題になった、多分Zyphra、

発音が間違ってる気がするんですけど、

っていうサービスとかがあったりして、

結構一瞬で自分の声真似てくれる、

特にこのZyphra、最近試したんですけど、

本当に2,30秒しゃべるぐらいで、

自分の声でしゃべれるTTSモデルができるみたいな感じになるんで、

これ結構面白いんで、ぜひ試してみてくださいという、

なんか気持ち、少しイケボになりますね。

気持ち、多分な。

なるほどな。

あんまりボイス変える系とかそんな触ってもいないので、

ちょっと触ってみます。

全然知らなかった。

Eleven Labとか、スピーチファイとか、

このZyphra見て確かにXでちょろっと見たかもなぐらいしか正直記憶にないんで、

ほんまなんか使うケースが、

僕は今のところ自分の周りだと身の周りだとないんですけど、

そんな必要に迫られるケースはそんなないんでね。

そうですね。

私も今んとこ身内ネタで楽しんでるぐらいなんで。

ボイスクローニングと会話のターンテイキング

そうそうそう。

昔そういうの身内ネタでやって楽しんで終わっちゃったなみたいな、

ちょっと詳しく語ってみます。

たぶんちゃんとしたユースケースだと、

動画吹き替えとかを元の人の声でできるみたいな。

それは明確にありますね。

そうですね。

結構これ面白かったのが、

私日本語で喋ってクローニングさせるんですけど、

ターゲット言語を日本語にして英語の文章を読ませると、

めちゃくちゃ日本語のアクセントがついた英語喋ったりとか、

そういう、

ちょっとこれも身内ネタぐらいでしか使う機会ないんですけど、

なんか面白さがありました。

そんなTTS、

あ、違うわ。

文字起こしLMTTSっていう構成で作っていく会話体系なんですけど、

これ作っていくところで、

たぶん最初につっかかるというか、

これどうしようかなって悩むのが会話のターンテイキングっていうところで、

要はAIがいつユーザーの会話を終了したと判断して、

話し始めるかっていうところですね。

これが結構食い気味すぎるとユーザーにとってうざいし、

長すぎたら長すぎたでちょっと不安になるというところがあったりするので、

結構悩みどころですと。

終了判定どうするかっていうところなんですけど、

たぶん一番シンプルな方法がVADっていうやつで、

Voice Activity Detectionの略なんですけど、

要は音声の音量を見ていると思うんですけど、

音量がしばらく小さくなったら終了と判定するみたいな感じですね。

式一みたいなものを設定できて、0.5秒無音期間が続いたら終了とか、

0.5秒っていうところを3秒にしたりとか、

そういう調整ができるっていう感じですね。

とりあえずこれが一番簡単に試せる。

VADのモデルとかも有名だと思ってるんですけど、

シレロVADってやつが1.6メガとかでウェブでもウェブフロントで動いてたりするんで、

これをサクッと導入して終了判定するみたいなところが、

たぶん一番始めやすいところですね。

これで出てくる課題としては、

セマンティックなその判定みたいなものができないといいますか、

みたいなちょっと私がまだ喋りそうだなっていうところで、

AIが入ってこないでじっくり待つみたいな判定みたいなものはできないっていうところですね。

それをよりセマンティックな終了判定をする手法としては、

私がリサーチした限りではそもそもそんなに見当たらなかったんですけど、

大きく2つあって、VAPっていうVoice Activity Predictionのモデルを使っていく。

これはいろんな実際の会話のコーパスをたくさん勉強して、

どういうときに発話が終了するかっていうのを学習した専門のモデルを作るみたいな感じですね。

これに関しては現状そんな日本語、ちょっと英語ではもしかしたらあるかもしれないですけど、

日本語でもこれでデファクトみたいなモデルはなさそうだったので、

もしご存じの方がいたら教えてくださいというような、

もう1個がLLMを活用したアプローチで、文字起こししてLLM TTSというフローになっているので、

文字起こしというか音声データを常にストリームで送って、

LLMが逐次デファクト化していって、

文字起こしのところで文字起こしというか音声データを常にストリームで送って、

LLMが逐次終了したかどうかというのを判断していくみたいなワークフローを考えている方もいらっしゃったりして、

こちらのといってもリスナーの方には見えないんですが、

Taking on the Backchannel Predictionというタイトルの論文があったりするので、

私これ自分で試せたりとかはできてないんですけど、

そういうアプローチもワンチャンありそうかなという感じですね。

この会話のターンテイキングのあたりで工夫されたポイントとか、

もっとここ気になるなとか、そういうところであったりしますか。

工夫したポイントは別に僕はそんなに勝手に作ったことないんですけど正直。

そもそも気になることはどうっすね。

LLMを活用したアプローチってもうちょっと具体的にいくと、

どんなフローというかどんな処理が挟まるんですか。

こういう会話をしている中でその文章をツルツルストリームで送って、

音声対話技術の選定

一定のサイズのチャンクで文章を文字起こした内容の文章を送って、

その文章をLLMに対してこの後また会話が続きそうですか、

みたいなことを聞くみたいなイメージ。

普通にLLM挟みますみたいな話なのか。

そうそうそう。結構シンプルな概念としては。

なるほどな。

ちなみにこの辺どれ試しててどれが一番採用するならベターソーとかあるんですか。

言うとちょっと正直なところ、今はVADを使ってます。

VADプラスちょっとUI上の工夫というか、

まずVADの敷地は3秒というちょっと長めなんですけど3秒にしてて、

ユーザーの会話が始まる前に3秒経ったらAIが話し始めますよみたいな感じで明示しておくみたいな。

AIが考えたり話したりしてる間もユーザーに割り込みさせないみたいなところで、

そのターンを明確に分けてるみたいな感じで、

そうなるとちょっと会話としての自然さはなくなるんですけど、

不快感のある体験はなくなるかなっていう感じですね。

AIが思わぬところで話し始めてうざいとか、

AIが喋ってるときにポロッと自分がああとか言っちゃったときに会話が途切れちゃって、

ああいやそういう意図じゃなかったんだけどなみたいな。

そういうちょっと不快な体験をさせるリスクがなくなるみたいな。

ちょっとそんな感じで、そのあたりが体験としてもめちゃくちゃ悪いわけではないし、

実装も割とシンプルにできるんで、一旦それでいいんじゃないな感じで今はやってますね。

確かにこの辺明確に総合格闘技感あるというか、UIとかUX面での工夫とか、

そもそも何かニュースケースとかシナリオ自体で良し悪し変わりそうですよね。

今まで今の人間が考える自然な感じで会話、

立てたいケースもあるんでしょうけど別に人間側が多少慣れて調整できるケースがあるんだったら、

それうまくやれたら解消しそうな気もするんで。

そうですね。こここだわるの楽しそうではあるんですけど、

こだわりすぎると沼というか、UIで工夫するとかのほうが多分リターンがでかそうだなという感じですね。

そうっすね。確かにな。

LiveKitの可能性

それとAIと対話する際の一番深いポイントというか、離脱ポイントがどこなのかはあんまりよくわかってないから正直。

確かにそんなに。

という感じで、今軽くUI動向みたいな話はすでにちょっと触れたんですけど、

その他の工夫としては、特にこともさんとかやってるんですけど、

合図値を最初にやって、時間稼ぎとか会話の自然さを狙うとかやってたりして、

こういう工夫も私はまだ何も入れてないんですけど、こういうのもやってもいいかもなとか。

そうですね。という感じですかね。

その他、音声対話周りでこういうのどうやってんだろうとか、気になるポイントって何かあったりしますか。

そうですね。ところとかもなんとなくしかやり方というか、実装こんな感じのことしてるらしいよっていうくらいしか知らないので、

その辺は気になりますか。僕でもこれ気になりますね。ライブキット。

あんまり全然こういうの作る機会がなかったんで知らなかったんですけど、こんなのがあるんですね。

そうみたいですね。ちょっと私も素振りできてないんであれなんですけど。

音声対話専門のUIキット。UIだけじゃないのかな、多分。

UIキットなんだこれ。

UIもあるし、多分音声ストリーミングのWebRTCで運動みたいな、そういうところも吉田にやってくれるよみたいな感じですかね、多分。

何か書いてますね。オープンAIユーズライブキットとデリバボイス2ミリオンシャットディフュースって書いてるかな。

オープンAI使ってるっぽいですね、本当は。

これあれなのかな。どういうところまでがスコープのライブラリなんですかね。

けどすぐログインとかに飛ばされるから結構プラットフォームっぽくいろいろやってくれそうな感じがある。

UIキットではもっといろいろやりそうですね、これ。

ほぼ何でもやってくれそうなんですけどね。

もしかしたら我々がさっきしゃべってたようなVAD的なやつとかも含んでるのかな。

なんか全然この感じ見てるとやってくれてない。

インタラクション。

カスタムレコーディングテンプレーを。

これは収録前にちゃんと見ておくべきです。

キースしてますね。

そう、同じですね。

おだしょーうんなんかルーミングリコーディングインディジバル

トラックとかカスタムレコーディングテンプレート

おだしょーこれは収録前にちゃんと見ておくべきだった説が出てきた

な

おだしょーちなみにLiveKit Agents っていうのもありますよドキュメント

見たら

おだしょー LiveKit Agents

おだしょーただこっちはあれですねリテールAIじゃないけど多分本当に

エンドツーエンドで音声アシスタントやってくれますよみたいなやつ

ですね多分リアルタイムエンジニアみたいないことですねだからスピーチ

トゥスピーチエージェントアウトゴイングフォンコールアンサーイン

カミングフォンコールボイスエージェントウィズエスティティエレメンティティ

ですどこにどうつなげられるか分かんないですけど確かにこれ

一通りやったらとりあえず大体のものを作れそう感ありますね音声

アシスタントとかこのドキュメントの中身とか見る限りめちゃくちゃ

充実してるし面白そう音声アシスタントを作る機会を作らないとこういう

のね趣味でやったりとかするのも楽しいんですけどやっぱりヨーム

と結構力入れてやるとこじゃないと趣味で終わっちゃうから

おだしょーうん

おだしょー趣味だと割とターンテイキングとかどうでもいいもんな

おだしょーいやそうねちょっと目移りしちゃうんですよねやり切る

前に次のエピソードが

おだしょー多分そうですね趣味の方趣味って呼ぶのも失礼か

もしんないんですけど AIチューバー界隈の方々とかはもしかしたら

この辺結構でもあれはあれかライブ配信のコメント読み上げ

とかだったらまた別なのかなでももしかしたらこういうのも

おだしょーそうですね

おだしょー知見が溜まっているのかもしれない

おだしょー確かになそれはそうだとは思いますねちょっと僕はもう

やっぱりライブキットライブキット触ってみたいなって思いました結論

おだしょーそうですね今まで話してたことが全部凝縮されている

かもしれない

おだしょーうん裏顔では

おだしょーうんじゃあ今回はこんな感じですかね

おだしょーそうですね

おだしょーじゃあライブキットを使ってみましょうというところ

で今日は締めたいと思いますありがとうございました

おだしょーはいありがとうございました

総スター数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

AI Engineering Now

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ