クラウドランで動かしてるみたいな感じですね。
クラウドランで動かしてるんですね。
ちょっとこれちゃんと速度のベンチマークとか、
自分たちで計測したわけじゃないんで、分かんないんですけど、
GPUを使ったほうが早そうで、
クラウドランだと一応GPUあるんですけど、
GPU登場したのが去年の夏とかで、
しかも今は一部のリージョンでしか使えないみたいなところがあって、
そういうAWSのGPU状況がどうか分かんないんですけど、
もしかしたらそういう詰まりというか、
落とし穴みたいなものがあるかもしれないなっていう感じですね。
AWSのGPUどうなってるんだっけな。
全然知らないな正直。
どっちは結局でも安いんですかね、それで言うと。
さすがにセルフホスティングしたほうが安いのかな。
なんですかね、CPUもなんだかんだ高いからな。
結構AWSのBedrockとかの、
それこそDeepSeekのR1モデルとか、
ホスティングできるようなカスタムモデルインポートみたいなのとか、
試そうと思っても、
ちょっと僕がざっと見た、そんな詳しくないので見た限りだけど、
結構高いんですよ。
これホスティングして使うぐらいだったら正直、
R1の性能が本当に必要とかじゃないんだったら、
普通にChromeの3.5ソネットでいいやって思うぐらいはそこそこ高かった気がしてて。
しかも稼働してる時間単位とかで課金になる。
そうなんですよね。
B2B SaaSとかだとやっぱりリクエスト数少ないので正直、
2Cと比べると絶対元取れないよなっていう、
その課金方式とか。
そうですね。
でもそうなんですよね。
あと一応サーバレスGPUみたいなオプションはあったりはするんですけど、
それはそれで、
レイテンシーというか、立ち上がるとコールドスタート問題が出てきたりするので、
ちょっと悩ましいなっていう。
確かにね。
TTSのところは趣味でポッドキャスト自動生成するとか、
YouTubeのショート動画、字幕付け自動生成するみたいなの、
趣味で作ってるぐらいでしかやってないんで、
結局何が一番TTSだとどれがベターなんだっけっていうのは普通に気になります。
ボイスボックスもスタイルバーとビットツーもニジボイスも、
あとIbis Speechも全部サーバーとあるんですけど、
そんな深く比較検証とか使い込んだわけじゃないので。
どうなんですかね。
ちょっとお値段的な話で言うと、
ニジボイスだけ重量課金っていうのが長期で使っていくときに
お値段厳しそうだなとか。
それで言うと、私最近趣味のTTS使った開発はボイスピークっていうものを使ってるんですけど、
これ買い切り型で1万円とかそんな感じなんですけど、
これだとプロの声優さんが元の音声を学習のためにたくさん話してくれてたりするので、
精度もいいしみたいな。
でもボイスピークさん、英語とかの文章を与えるときに
アルファベットを全部読んでいくみたいな挙動があったりとかして、
ボイスピークはさすがに読み上げるけど、
そういう文字列があったときにVOICEみたいに読んでいくみたいな。
ニジボイスとかIbis Speechとかでそういうことって、
たまにあるから辞書登録はするんですけど、
そういうたまにあるのがあるなみたいなところですね。
でもそれぐらいしかそんなに比較材料がない気がしますね。
TTSは正直、仕事でTTSをやる機会はまださすがにないというか、
そうそうそう。
昔そういうの身内ネタでやって楽しんで終わっちゃったなみたいな、
ちょっと詳しく語ってみます。
たぶんちゃんとしたユースケースだと、
動画吹き替えとかを元の人の声でできるみたいな。
それは明確にありますね。
そうですね。
結構これ面白かったのが、
私日本語で喋ってクローニングさせるんですけど、
ターゲット言語を日本語にして英語の文章を読ませると、
めちゃくちゃ日本語のアクセントがついた英語喋ったりとか、
そういう、
ちょっとこれも身内ネタぐらいでしか使う機会ないんですけど、
なんか面白さがありました。
そんなTTS、
あ、違うわ。
文字起こしLMTTSっていう構成で作っていく会話体系なんですけど、
これ作っていくところで、
たぶん最初につっかかるというか、
これどうしようかなって悩むのが会話のターンテイキングっていうところで、
要はAIがいつユーザーの会話を終了したと判断して、
話し始めるかっていうところですね。
これが結構食い気味すぎるとユーザーにとってうざいし、
長すぎたら長すぎたでちょっと不安になるというところがあったりするので、
結構悩みどころですと。
終了判定どうするかっていうところなんですけど、
たぶん一番シンプルな方法がVADっていうやつで、
Voice Activity Detectionの略なんですけど、
要は音声の音量を見ていると思うんですけど、
音量がしばらく小さくなったら終了と判定するみたいな感じですね。
式一みたいなものを設定できて、0.5秒無音期間が続いたら終了とか、
0.5秒っていうところを3秒にしたりとか、
そういう調整ができるっていう感じですね。
とりあえずこれが一番簡単に試せる。
VADのモデルとかも有名だと思ってるんですけど、
シレロVADってやつが1.6メガとかでウェブでもウェブフロントで動いてたりするんで、
これをサクッと導入して終了判定するみたいなところが、
たぶん一番始めやすいところですね。
これで出てくる課題としては、
セマンティックなその判定みたいなものができないといいますか、
みたいなちょっと私がまだ喋りそうだなっていうところで、
AIが入ってこないでじっくり待つみたいな判定みたいなものはできないっていうところですね。
それをよりセマンティックな終了判定をする手法としては、
私がリサーチした限りではそもそもそんなに見当たらなかったんですけど、
大きく2つあって、VAPっていうVoice Activity Predictionのモデルを使っていく。
これはいろんな実際の会話のコーパスをたくさん勉強して、
どういうときに発話が終了するかっていうのを学習した専門のモデルを作るみたいな感じですね。
これに関しては現状そんな日本語、ちょっと英語ではもしかしたらあるかもしれないですけど、
日本語でもこれでデファクトみたいなモデルはなさそうだったので、
もしご存じの方がいたら教えてくださいというような、
もう1個がLLMを活用したアプローチで、文字起こししてLLM TTSというフローになっているので、
文字起こしというか音声データを常にストリームで送って、
LLMが逐次デファクト化していって、
文字起こしのところで文字起こしというか音声データを常にストリームで送って、
LLMが逐次終了したかどうかというのを判断していくみたいなワークフローを考えている方もいらっしゃったりして、
こちらのといってもリスナーの方には見えないんですが、
Taking on the Backchannel Predictionというタイトルの論文があったりするので、
私これ自分で試せたりとかはできてないんですけど、
そういうアプローチもワンチャンありそうかなという感じですね。
この会話のターンテイキングのあたりで工夫されたポイントとか、
もっとここ気になるなとか、そういうところであったりしますか。
工夫したポイントは別に僕はそんなに勝手に作ったことないんですけど正直。
そもそも気になることはどうっすね。
LLMを活用したアプローチってもうちょっと具体的にいくと、
どんなフローというかどんな処理が挟まるんですか。
こういう会話をしている中でその文章をツルツルストリームで送って、
それとAIと対話する際の一番深いポイントというか、離脱ポイントがどこなのかはあんまりよくわかってないから正直。
確かにそんなに。
という感じで、今軽くUI動向みたいな話はすでにちょっと触れたんですけど、
その他の工夫としては、特にこともさんとかやってるんですけど、
合図値を最初にやって、時間稼ぎとか会話の自然さを狙うとかやってたりして、
こういう工夫も私はまだ何も入れてないんですけど、こういうのもやってもいいかもなとか。
そうですね。という感じですかね。
その他、音声対話周りでこういうのどうやってんだろうとか、気になるポイントって何かあったりしますか。
そうですね。ところとかもなんとなくしかやり方というか、実装こんな感じのことしてるらしいよっていうくらいしか知らないので、
その辺は気になりますか。僕でもこれ気になりますね。ライブキット。
あんまり全然こういうの作る機会がなかったんで知らなかったんですけど、こんなのがあるんですね。
そうみたいですね。ちょっと私も素振りできてないんであれなんですけど。
音声対話専門のUIキット。UIだけじゃないのかな、多分。
UIキットなんだこれ。
UIもあるし、多分音声ストリーミングのWebRTCで運動みたいな、そういうところも吉田にやってくれるよみたいな感じですかね、多分。
何か書いてますね。オープンAIユーズライブキットとデリバボイス2ミリオンシャットディフュースって書いてるかな。
オープンAI使ってるっぽいですね、本当は。
これあれなのかな。どういうところまでがスコープのライブラリなんですかね。
けどすぐログインとかに飛ばされるから結構プラットフォームっぽくいろいろやってくれそうな感じがある。
UIキットではもっといろいろやりそうですね、これ。
ほぼ何でもやってくれそうなんですけどね。
もしかしたら我々がさっきしゃべってたようなVAD的なやつとかも含んでるのかな。
なんか全然この感じ見てるとやってくれてない。
インタラクション。
カスタムレコーディングテンプレーを。
これは収録前にちゃんと見ておくべきです。
キースしてますね。
そう、同じですね。
おだしょー うん なんかルーミング リコーディングインディジバル
トラックとかカスタムレコーディング テンプレート
おだしょー これは収録前にちゃんと 見ておくべきだった説が出てきた
な
おだしょー ちなみにLiveKit Agents っていうのもありますよ ドキュメント
見たら
おだしょー LiveKit Agents
おだしょー ただこっちはあれですね リテールAIじゃないけど 多分本当に
エンドツーエンドで音声アシスタント やってくれますよ みたいなやつ
ですね 多分リアルタイムエンジニア みたいないことですね だから スピーチ
トゥスピーチエージェント アウト ゴイングフォンコール アンサーイン
カミングフォンコール ボイスエージェント ウィズエスティティ エレメンティティ
です どこにどうつなげられるか 分かんないですけど 確かにこれ
一通りやったら とりあえず大体の ものを作れそう感ありますね 音声
アシスタントとか このドキュメント の中身とか見る限り めちゃくちゃ
充実してるし 面白そう 音声アシスタント を作る機会を作らないと こういう
のね 趣味でやったりとかするのも 楽しいんですけど やっぱりヨーム
と結構力入れてやるとこじゃない と 趣味で終わっちゃうから
おだしょー うん
おだしょー 趣味だと割とターンテイキング とかどうでもいいもんな
おだしょー いや そうね ちょっと 目移りしちゃうんですよね やり切る
前に次のエピソードが
おだしょー 多分 そうですね 趣味 の方 趣味って呼ぶのも失礼か
もしんないんですけど AIチューバー 界隈の方々とかは もしかしたら
この辺 結構 でもあれはあれか ライブ配信のコメント読み上げ
とかだったら また別なのかな でも もしかしたらこういうのも
おだしょー そうですね
おだしょー 知見が溜まっている のかもしれない
おだしょー 確かにな それはそうだ とは思いますね ちょっと僕はもう
やっぱりライブキット ライブキット 触ってみたいなって思いました 結論
おだしょー そうですね 今まで 話してたことが全部凝縮されている
かもしれない
おだしょー うん 裏顔では
おだしょー うん じゃあ 今回は こんな感じですかね
おだしょー そうですね
おだしょー じゃあライブキット を使ってみましょうというところ
で 今日は締めたいと思います ありがとうございました
おだしょー はい ありがとうございました