話者分離機能の紹介
近藤淳也
こんにちは、LISTEN NEWSです。今日は、LISTENの新しい機能、話者分離機能についてご紹介します。
ここ数日間、LISTENの方でテストも含めてずっと改良を続けてきた機能ですが、一旦だいぶ使える制度になってきていまして、一旦ここでリリースということにさせてもらいたいと思います。
話者分離機能、どういうものかと言いますと、話者を分離するということで、
ポッドキャスト、一人でされている方は実はあまり関係ないんですけれども、2人でされているポッドキャストとか、あとゲストを呼んで複数の人で話していたり、
ホストが2人でさらにゲストがいてとか、複数人でされているポッドキャストも結構あると思います。
今までのLISTENの文字起こしというのは、誰がしゃべったかというのは全部混ぜて、すべてが一つになって前から順番にテキストになっているという形でしたけれども、
これに対して、声の質とかを見て、またこれもAIで自動的にこの人とこの人は同じ発言で、この人とこの人は別の人だなというのを分離する。
AI用語なんですけど、話者分離。話者分離でいいかな。
話者分離と呼んでいますが、とにかく誰がしゃべっているかというのを分離して、3人だったら3人、この人、この発言は1番の人、2番の人、3番の人というふうに分ける機能がリリースになっています。
はい。それで、この話者分離機能が発動する条件がありまして、全部のエピソードというか、全部のポッドキャストに自動的にこの機能が動くわけではなくて、
それはなぜかというと、1人でやられているポッドキャストで分離しようとしても意味がないので、その場合は動かしていないんですね。
どういうときに動くかというと、出演者を各エピソードに設定することができますけれども、この出演者に複数の方を登録しているエピソードだけは自動的に話者分離機能が動きます。
ですので、この機能を試してみたい方は、各エピソードで、特に複数で喋っているエピソードで、それぞれの出演者の方をエピソードページから登録してみてください。
男性同士の分離問題と解決法
近藤淳也
それでですね、それを行うとしばらくしますと話者分離が動きまして、自動的に1、2、1、2とか、話者のスピーカーの番号が前に振られて分かれていくと思います。
かなり頑張ってきているので、こちらでもいろいろたくさんのエピソードを見てますけど、かなり綺麗に分かれるようになってきていると思いますけど、たまにちょっとずれたりとか、
これ実は自分の発言なんだけど、みたいなところがあるんで、そこは文字起こしと同様、ちょっとAIのやることなので、大目に見ていただければと思いますけれども、
最初のリリースの段階では、実は男女のポッドキャストとか、男性同士でも声色が違う、声の質がちょっと違う、トーンが違う方とか同士のポッドキャストが綺麗に分かれていたんですけど、
結構声の似ている同性同士、特に男性同士が多かったんですが、男性同士でちょっと声の似た方同士のポッドキャストが実はなかなか分かれないっていう問題がありまして、
動かしてみたら分かったことなんですけど、その代表的なものがおっさんFMさんとかですね、僕の知り合いでもあるクリスさんと長山さんがこんなに声が似ていたのかっていうことに改め気づくっていうことがありまして、
開発チームの中では、ていうか僕の中ではクリス長山問題っていう。
ずっとチームの中で改良を続けていたんですけれども、ここ最近のバージョンでようやく割と綺麗に分かれるようになってきまして、
割と声の似た男性同士とか女性同士もあるかもしれないですけれども、同性の方同士の発言とかも割と綺麗に分かれるようになってきています。
それでさっきのようにその出演者を複数登録してもらったら、1番、2番、3番という感じで各発言の先頭にスピーカーの番号が入るようになるんですけれども、そうしたらですね、その番号をさらに出演者に割り振ることで名前を付けられるというか、出演者とひも付けることができます。
エピソードページのその出演者の編集ページがあるんですけど、エピソードページの上の方の出演者が並んでいるところの各出演者のその点々が右肩にあるんですけれども、そこをクリックしていただいて編集ボタンを押すと、今までになかったスピーカーという欄が出てきます。
ここでスピーカー番号を選択してくださいということで、何番の人がこの出演者かっていうのを指定できますので、ここで例えば自分が1番で相方さんが2番だったら自分のところは1番、相方は2番という感じでひも付けていただくと、最初は数字だったそのアイコンがその出演者のアイコンに変わってかなり見やすくなるので、
ぜひその話者分離が終わったものに対して設定をして見やすくしていただければと思います。
僕はアンノウンラジオは過去のエピソード全て振り返って出演者とのひも付けをやったんですけど、
出演者の登録に比べれば早いですけど、ちょっと手間ですけど、出演者の登録のときはもっと時間かかったので、それに比べたら30分ぐらいで終わったかな。
若干また手間を取らせてしまうんですけど、分かれるとかなり読みやすくなって、
これ誰の発言かなっていうのもなんとなく視覚でも追いながらザーッと内容を把握したりとかってこともできるようになって結構見やすくなるので、
ぜひお試しいただければなと思っております。
どうですか?話者分離。
話者分離の使い心地
桑原佑輔
そうですね。本当に視覚で見やすくなった感じがありますし、インタビューとかそういうのを読んでるような気分というか、
そういうのでもより誰が喋ってんだなっていうのをイメージしやすくなった気はします。
近藤淳也
そうですね。
AIなんだから、これ1回分けたら次も引き継いでくれよっていう気持ちになりません?
桑原佑輔
それは聞いてみようと思ってました。
近藤淳也
そういう気持ちにはなるよなっていう気持ちはあります。
先読みして自分で言っちゃいましたけど、そういうこともできると本当は最初は紐付けするの不便というか手間だけど、
1回やればそのまま自分の声を覚えてくれるみたいになれば本当に便利なんで、
その辺までいけるといいかなと思ってるんですが、一旦ちょっとこの状態でお使いいただければと。
桑原佑輔
そうなるのも楽しみにしております。
近藤淳也
他にも質問ありますか?
桑原佑輔
そうですね。
近藤淳也
質問。
桑原佑輔
もうなかった?
近藤淳也
はい。
分かりました。
では今回は話者分離機能の紹介でした。
ありがとうございます。
ありがとうございました。