1. AI Engineering Now
  2. #3: 音声AI使ってる?最近の音..
2024-09-30 18:56

#3: 音声AI使ってる?最近の音声AIサービスについて雑談 〜GoogleのNotebookLMとRetell AI、個人開発〜

1 Mention

音声AIサービスの雑談会です。特にGoogleのNotebookLMのAudio Overview、Illuminate、Retell AI、kagayaが絶賛個人開発中の音声AIサービスについて話しました。


ポッドキャストの書き起こしサービス「LISTEN」は⁠⁠⁠こちら⁠⁠⁠


Shownotes:

NotebookLM now lets you listen to a conversation about your sources

AIが論文や書籍を要約してポッドキャスト風の会話音声に自動変換してくれる「Google Illuminate」が公開中

グーグル、自分だけのAI「NotebookLM」に音声番組でまとめてくれる新機能

Retell AI - Supercharge your call operation with Voice AI

音声AIエージェントの世界とRetell AI入門 



出演者:

seya(⁠⁠@sekikazu01⁠⁠)

kagaya(⁠⁠@ry0_kaga⁠⁠)

サマリー

このエピソードでは、音声AIサービスに関する雑談が展開され、特にGoogleのNotebookLMやRetell AIの開発プラットフォームに焦点が当たります。音声入力の使用経験や音声合成の品質についても話題となり、音声系LMサービスの利用シーンや技術の進化が議論されます。これにより、リスナーは最近の音声AIサービスの動向について新たな視点を得ることができます。音声入力や音声合成技術は急速に進化しており、個人開発者にとって新たな可能性を提供しています。

音声AIサービスの興味
こんにちは。
こんにちは。
はい、AIエンジニアリングの香谷です。
靖谷と申します。
はい、靖谷さん、今日はよろしくお願いします。
はい、よろしくお願いします。
で、今日はちょっと雑談会じゃないですけど、 今まで結構論文の、論文紹介会みたいなこととかだけやってたんですが、
今回もうちょっとゆるく、音声系のLMサービスの 雑談みたいな会になりますと。
で、このテーマ自体は僕が選んだんですが、 なぜかというとシンプルに、
私香谷が最近音声に興味あってるとか、 音声AIエージェントの事業とかプロダクトをちょっとやりたいな、
みたいな気持ちが最近強いので、 っていう、ほんとそれだけですね。
ちなみに靖谷さん、音声入力とか、 音声系のLMサービスとかって普段使われてますか?
ノートブックLMの体験
音声、音声入力はたまに、 なんか一時期、ちょっと手が痺れてた時期がありまして、
その時に手を使わないでプログラミングができないかっていうので、 音声入力をちょっと頑張ってたりとか、
でも、あとiPadとかは文字入力するのだるいから、 音声入力よく使ってる気がしますね。
あとは、音声系のLMサービス。 正直遊んだぐらいなんだよ。
11 Labとかで、 日本語お上手ね、みたいな感じとか。
あとは、Style Belt Bit 2で、 一好みの声を学習させて遊ぶとか。
仕事っていうより遊びですけど、 そんなんで使ったことあるみたいな感じですね。
Style Belt Bit 2は、テキストとスピーチの音声合成とかしてくれるやつですかね?
そうそう。なんか日本語の抑揚というか、 感情の出し方みたいなのがすごい自然に。
自然、たまに大げさすぎるかなーけんなくはないんですけど、 すごい自然に話してくれるっていう。
11 Labと比べたら、どっちの方が日本語自然でした?
どうなんだろう。 試したのが4、5ヶ月ぐらい前で、
その時はStyle Beltの方が 上手だなーって感じだったんですけど、
最近、Xとかで、 11 Labで声作ったみたいな人の動画とか流れてくるのを見てると、
結構自然なんで、 改善してんのかなっていう印象もちょっと受けてる。
そうですね。11 Labとか、 あとちょっと名前で忘れましたけど、
この辺、日本語も結構やっぱりと自然は自然なんですよね。
ちょっと違和感あったりとか、 抑揚おかしかったりとか、
こういう名刺系とかはさすがにつらかったりとかはするんですけど、
結構やっぱ性能上がってきてるなーみたいなのは、
ちょっと触って、 プロトタイプみたいなの作ったぐらいですけど、
と思いますね。音声系のLMサービス、 僕が書いといてないんですけど、
音声系のLMサービスって何かって聞かれると、
ちょっと答えるの難しいテーマなんですけど。
でもそういう意味で言うと文字起こしとかも含むなら、
割と使ってる気がします。
確かにな。文字起こしとか、それこそAI、
Tuber系だったりとか、キャラクターAIとかも、
アプリで声で音声で電話みたいなことできたりとかするので、
その辺とかも含めると無限にある気がするんですけど、
ちょっと話変わるんですけど、
Googleのオーディオの会話を自動生成するみたいなサービスって、
使ったことあります?
会話の、
ノートブックLMのポッドキャスト作ってくれるよみたいなのは、
1回だけ試しましたね。
そうそう。
そうだな。
感想だけ先に言うと、
内容は良かったんですけど、
結構余計な感情的な表現が多すぎるというか、
何だっけな、ワーオとか、
これは世紀の大発見だわみたいな、
その情報いらないんだけどなみたいな、
多分そういう人間っぽいと設定されているであろう、
何かに最適化されてしまって、
ちょっとその部分で体験が悪くなっているみたいな、
そういうのはちょっと感じましたね。
個人開発のアイデア
1回やっただけですけど。
確かに、
完全な印象で話しますけど、
アメリカっぽいなみたいな会話をする印象はありますね。
ノートブックALMは僕はめちゃくちゃ使うんですけど、
オーディオ、オーバービューとかも、
完全に割と英語の学習用みたいな感じとかで使っていることが多いですけど、
僕は結構こういう、
ずっと何かを学習するとかインプットするときに、
そのときの状況に応じたコンテンツ形式、表現形式で、
それぞれ何か、
このときはこれで見たいみたいなのがめちゃくちゃある。
普通みんなポッドキャストとか聞くときそうだと思いますけど、
移動中は音がいいよねとか、手を待っているときとか。
僕はあんまり動画とかそんなに得意じゃなくて、
アニメよりも漫画派だったりとかするので、
動画よりは漫画とかになってくれたりとか、
それだったら数字とかの方がちゃんと見れて楽しいので、
YouTube動画とかの面白そうなセッションとかも、
綺麗な書き起こしのスクリプトとか出してくれた方が結構嬉しかったりとかするので、
ノートブック系よりもはこれ、今オーディオになるだけですけど、
こういうコンテンツ形式とかをLMで自由自在に書いてくれるみたいなのは、
めちゃくちゃ欲しかった。
一つの方向性として扱いですよね。
それで言ったあと、このIlluminateっていうやつもあるんですけど、
これ触りました?
これ私名前すら知らなかったんで、初耳。
完全初見ですね。
これ2週間くらい前なのかな。
Google、Illuminateって読むんですけど、
これ僕も今デモ的な状態?
アルファ版なのかデモみたいな状態で、
自分で多分音声とか自由に生成するっていうよりかは、
すでに出来上がったやつとかを試しに聞けるぐらいの状態なんですが、
これ何かっていうと、
ノートブックLMのオーディオ生成してるやつとやってることあんまり変わらないというか、
たぶん論文とか書籍とかを要約して、
会話形式の音声コンテンツを生成するってやつの理解なので、
正直ノートブックLMとの違いは何一つ分かってないんですけど正直。
さっき言ったように余計な感情表現が減るならありがたいですけど。
減るのかな。
たぶん一緒な気がする。
裏側一緒でもそんなに驚かないから。
たぶんダメな気がしますけど。
これも結構、
論文とかを2人のポッドキャスト形式でどうしても聞きたいってシーンとかは、
限定的ですけど、
ポッド変換して作れるのとか結構便利そうだなって思いますけどね。
話戻しちゃうんですけど、
ポッドキャスト結構、
家事の合間とか、
あと散歩してる時とかに聞いてることが多いんですけど、
結構込み入った話になってくると、
聞き逃してることが多いというか。
それもめっちゃ分からない。
内容がテクニカルすぎるものは、
ポッドキャストをそんなに向いてないんだろうなっていう。
少なくとも自分には。
さっき言ったような、
私は割と動画集中してみるのが好きだったりするので、
漫画でもありがたいし、
そういういろんな形式でできたら確かにめっちゃ熱いですね。
そうですね。
ポッドキャストなんか流し劇みたいになっちゃう問題は確かにありますね。
結構こういうコンテンツの形式みたいなのがLMで自由自在に変えるみたいなのが
僕はめちゃくちゃ欲していて。
本当に先週からなんですけど、
完全趣味で先週から個人開発みたいなのを久しぶりにやり始めたんですけど、
そこで作っているのもやりたいことは、
夜に散歩とか電動キックボード乗りながらアイデア考えたりするんですよ。
そこで思いついたらスラックでメモしたりしてたんですけど、
めちゃくちゃ面倒じゃないですか。
なので音声で話してAIの下にいろいろ変換とか抽出とかさせて、
なんなら適切なノーションとかに転機するみたいなワークフルを組めるようなやつ。
本当それだけみたいなやつとかを自分用に作りたくて、
最近って本当に先週からですけど、
個人開発してるんで、
やっぱりこれ系のサービスとか僕がシンプルに好きなんだろうなと思いますね。
GoogleのノートブックLMのオーディオオーバービューとか。
確かにな。私もスラックにメモしてるけど、
ちょっと遡るのがだるいんで、こういう。
一回ね、整形とかも一回しなきゃいけないのがだるいから。
アプリじゃなくて別にウェブでいいなって感じなんですけど、
普通にこう録音して歌えるとか、
こういう形式の文体にしてくださいみたいなのとかを入力できるようにして、
ひたすらいろんな形に変換して、
勝手に変換してどこかにちゃんと転記されるみたいな。
そういう音声入力系のサービスを、
シンプルに僕がめちゃくちゃこういうの好きなので。
転記先は内容に応じて、
吉谷LLMが判断するとかそういうのやってたりとか。
そこの転記のところとかは、
これから今、
今LP見つけながら喋ってますけど、
カミングスインしてるので、
まだそんなに考えてないんですけど。
そうですね。
事前にその分岐フローみたいなのを組めて勝手に判断するとかでもいいし、
ワークフローを定義して最初離して動かすワークフローとか選んで、
実行したら勝手に裏で変換されて、
音声AIサービスの現状
登録されてるとかでもいいし、
その辺とかはちょっとまだ考えてないですけど、
その辺のやつとかは結構僕が、
仕事関係のやつは会社のスラックのタイムズとか、
これ系のやつは、
例えば僕らのポッドキャスト用のスラックチャンネルとか、
Notionのこことか、
結構そういうのとかがあって、
で、みたいなのとか、
あと音声入力もやっぱ音声で話してるやつをそのまま書き起こすと、
結構尻滅裂な内容だったりするじゃないですか。
あの辺とかも結構、
自分で綺麗に箇条書きし直したりとかしてたんですけど、
音声入力するときは。
ああいうのとかは別に、
そのまま綺麗に書き起こしたいっていうよりかは、
綺麗に整頓してほしいので、
LLMにそれこそカジュアルにしてくれなのか、
フォーマルにしてくれなのか、
リスト形式にしてくれなのか、
みたいなのをやってほしいなっていうのが、
完全な個人モチベーションのプロダクトですね。
何だ?
メモ。
そうですね。
メモとはちょっと違うか。
私メモに、
なんか、
Xで見かけた後で読む論文とかも割と雑多に、
まとめてたりするので、
管理されて、
なんか、
結局読まないみたいなのを、
ずっとやってるので。
ブックマークはもうちょっと、
ちゃんとしたいですね。
ブックマークとかをね、
ちゃんと、
綺麗に、
綺麗にちゃんと読んで、
綺麗に消すっていうのを、
それはそれでやりたいな。
音声関係なく。
音声、
さっき言った音声入力って、
外でもやってる感じですか?
外でもやってますね。
なるほど。
なんか、
大体話すときって、
はいはい。
音声入力、
周りに人がいると、
恥ずかしい問題とかないですか?
それで言うと、
僕のユースケースは、
夜なので、
夜散歩してるときの、
なんか、
いろいろとアイディアとか、
考えてるときのやつを、
メモるっていうユースケースなので、
そもそも周りに誰もいないから、
恥ずかしいものはあんまないですね。
ないか。
ちょっと通りがかった人が、
怖い思いをするかもしれない。
どうだろうな。
うちの近くそんな人おんないからな、正直。
はい。
はい。
それはありますね。
音声系、
そういうのとかありますよね。
外ではちょっと、
みたいなのとかは。
電話形式とかだったら別なんでしょうけど。
そう、でもなんか、
またちょっと話がありますけど、
前本当になんか、
本当なんか趣味LTで、
音声AIアジェント、
リテルAIっていう、
音声AIアジェント開発のプラットフォーム、
みたいなところをなんか、
ちょっとなんか、
適当にカプリ作ってみて、
遊んだっていう、
本当にそれだけのLTしてきたんですけど、
これも、
なんか音声のやつって、
それかさっきのスタイル、
スタイルビートでしたっけ、
スタイルバート、
スタイルビート、
ビート2?
ビートのバートね。
みたいに。
バートか。
バートか。
なんかスピーチ2テキストとか、
テキスト2スピーチとか、
ストリーミングでつないでとか、
で、
最近だとLMで何か考えさせてとか、
結構いろいろやるじゃないですか。
で、
結構個別でいろいろAPIとかあるので、
基本そういうのとか使って、
作ってるんだと思うんですけど、
みんな。
なんかリテルAIとか、
そういうリテルAIとかは、
フルスタックな音声AIアジェント、
開発プラットフォームって感じで、
大変なこと全部やってくれるんですよね。
個人開発の未来
テキスト2スピーチから、
スピーチ2テキストからみたいな。
で、
それを結構プロンプトベースとかで、
制御できたりとか、
それこそなんか、
例えば、
ユーザーに今の都合はいいかどうか聞いて、
ノーだったらこっちの処理に移りますみたいな。
なんかちょっとフロー、
フローエンジニアリングっぽいような、
フローとかめちゃくちゃ組めたりとかしてて。
これもなんか、
音声合成の、
テキスト2スピーチのところとかは、
裏のモデルは11LABOSだったりとかするので、
繋がってたりとかするので、
結構ね、
なんかデモ動画ちょっと後で見てほしいんですけど、
結構普通にいい感じで会話できるんですよ。
パッド作っても。
これのデモ動画見てから、
ちょっと音声AI熱が高まった、
節はあるので、
リテルAIとか音声AIアジェント界とかは、
ちょっとどっかで、
もう少し時間とってちゃんと話したい。
というか、
なんか僕が、
本業じゃなくてもいいけど、
個人開発でプロダクト作って、
その話とかしたいんでね。
その辺はまた、
リテルAIっていう。
デモ動画見落としたら、
音量がすごかった。
後で見てください。
はい。
ちょっと後で見て、
ちゃんと理解します。
面白そうですね。
めちゃ面白いですよ。
なんか、
プロダクションレディーにするまでには、
これ単体だと結構、
どうだろうな、
チューニング頑張ったらユースケースによってはいけるのかな、
ぐらいの感覚でしたけど、
だいぶなんか進化してる感じはすごいので。
個人のちょっとした音声使った、
生産制約何かツールを作るみたいなことに関しては、
全然いけそうみたいな感じなんですかね。
うん、ですね。
なんか全然それはいける気はするので、
さっき話した個人開発してるやつは、
あんまり話す方はそんなに想定してないので、
考えてないですけど、
これがちょっとめどついたらまた、
リテルAIとか作ったアプリ作りたいなと思ってるので、
ちょっとそこで試してみますね。
期待が高まっていく。
すいません、再起きちゃった。
いや、でも期待が高まるなと。
ほんと趣味個人開発だけど。
一応ちょっと僕が一旦雑に持ち込んだ話題はこの程度なので、
せやさん他に何か話したりないことなければ、
これで終わりにしようと思いますが、どうですか。
せや、大丈夫です。
また何かあったら別のエピソード回に持ち込んでください。
またやりましょう。
そういうことで今回は音声系のLMサービス、
GoogleのノートブックLMとかについて雑談しました。
はい、ありがとうございました。
ではせやさん本日もありがとうございました。
18:56

このエピソードに言及しているエピソード

コメント

スクロール