00:02
みなさん、こんにちは。音楽家で作曲家、違う、作曲家で大学教員の小松正史ですね。
はい、ということで、今日はですね、ちょっと専門的な話をしたいなと思って撮っております。
ボイスクローニングっていう言葉があって、クローン人間とかね、同じ遺伝子を持った人間が複数作られて、これはいかがなものかという倫理的な話もありますけれども、
それが声で合成ができるという、これAIとかね、合成機能を使っているわけなんですけど、それについてね、今日話してみたいなと思っております。
それでですね、ちょっとこの音を聞いてほしいんですよ。これは合成の音なんですけれども、聞いてみてください。
いかがですかね。これね、合成なんですよ。これがボイスクローンの技術なんですけども、このボイスクローニングっていうのは、高度なアルゴリズムと音声合成を使用しまして、人の声のデジタル複製を作成する最新の技術なんですね。
これ、俳優さんとか声優さんとか、特定の人の声をですね、まずはビッグデータとして、音声データということでインプットするんですね。
そこから新しい文脈でもって、セリフを喋らせるわけなんですけれども、これね、元の声とほとんど区別がつかないということで、これどんなテキストでも、どんな言語でも使えるというような、そういう技術なんですね。
これがすごく、どんどん開発されていくと、例えば、ハリウッド映画の特定の声優さんの声を使って、後で合成するとか、アニメーションの声優にも使われるとか、ものすごくいろんな汎用性があると思うんですね。
いいところばかりの話をしてるんですけど、これで僕、まず思ったのが、オレオレ詐欺に使えるんじゃないかなと思うんですよね。
これ、いろいろなところで、例えば、今ってオレオレ詐欺って、犯罪者の上等手段として電話を使って、どんどんおびき寄せると言いますかね、かなり精神的に追い詰めさせて、振り込みをさせるみたいな手法がありますけど、
最近よくそういうのが言われてるから、用心しますよね。よくよく聞くと、電話の声って結構周波数属性が限られた中で使われてしまってるので、くぐもった声、あえてくぐもらせてるところがあるんですがね、
03:00
それで聞いているので、より分かりづらいというところはあるけれども、不自然ですよね。そもそも、例えば自分の息子が働いてて、何か失敗してお金振り込めみたいなことになったとしても、それは文脈的にも冷静に聞けたらね、それで、そこで電話を切るとか、警察に言うとかっていうことで防止ができると思うんですけど、
声がちょっと難儀なんですよね。これ自分の声とか、息子の声とか、子どもの声、家族の声をサンプリングして、それでビッグデータにして、そして声を新しく合成させていくと、分かんないですよね。
これ本当に息子の声だとかね、これはっていうような、今思ったんですけど、僕、ボイシーでめちゃくちゃ声を録音してるじゃないですか、もう1500回とか3年ぐらいすると、僕の声でビッグデータとして使えるよ、危ないよね、これ。僕が一番家族が騙されるんじゃないかみたいなことはあるかもしれないですけど、
それぐらいボイスクローニング、ボイスクローンか、ボイスクローニングクローンはかなり現実的に使えていくという。先ほど外国人、英語のボイスクローニングで合成された音を聞いていただきましたけれども、これ無料のアプリでできるんですよ。
怖くないですか。無料でこれできるっていうね、すごくそれが危ないということなんですけども、これボイスクローニングのプロセスを改めて伝えていきますと、まずはですね、キャプチャーボイスデータということで、これは様々な録音されたもののデータをまずはインプットしてビッグデータを作るということですね。
そして2番目にAIアルゴリズムというね、AIの機能によってその声の解析なんですよね。解析のパターンとかいろいろなこのやり方があるんですけど、特に僕びっくりしたのはですね、感情的な声の変化ってあるでしょ。楽しいときに喋っていくみたいなと、悲しいよね、本当に本当に悲しいんだみたいな。
そういう感情的なパラメーターも入れてですね、声って今ほとんど作れる状態になっているわけなんですけど、そういうことも含めて様々な条件に応じてインプットされたビッグデータの中から声の特性を抽出していくっていうのが、第2段階のAIアルゴリズムってやつなんですよね。
そして3番目にスピーチシンセサイズということで、実際に声の状態をシンセサイズが合成していくっていうことなんですよね。例えば、今日は朝起きて、そしてスーパーに行って買い物をしてみたいな、そういうテキストを読み込ませて合成するというシンセサイズなので、合成をしていくっていうことがあるんですね。
06:09
そしてその合成された音に対して、さらに磨きをかけるということで4番目の処理です。ボイスクロンクリエーションという、本当にこれを一言で言うならば、すごく自然な発声状態にしていくっていうね、そういう感じなんですね。
良いふうに使っていけたら、例えば、亡くなった人の声をもう一度再現していきたいっていうような、これは録音したデータがないと難しいので、聖徳太子とか織田信長みたいな声はちょっと無理なんですけど、録音されたもののデータが多数あったとしたら、少なくとも小松の声はかなり録音しているので、合成できると思います、ある程度。
そういうのを使って、今、亡き人、あるいはちょっと声を使って表現をしてみたいなっていう場合の活用としては、ポジティブな使われ方なんですね。そして、今日は冒頭で伝えたネガティブな使い方としたら、オレオレ詐欺に使える。
他にももっと犯罪的に使えるやり方ってあるんじゃないですかね。オレオレ詐欺しか思いつかなかったよね。他にあったかな。
これは、とはいえ電話口で応対しながらリアルタイムでやり取りは難しいですからね。いきなり、息子の声だ、今どこにいるんですかとかって言った場合、すぐに合成できないですからね。
これ、AIのきっついところというか、人間に及ばないところは、即座に返答というか、新しく作れないっていうことです。何にしてもちょっと時間がかかったりするという、即反応っていう、その処理がまだまだ極めて難しいっていうのが、AIの欠点というか、今から改善すべきところだと思うんですけれども。
要はこのボイスクローニングによって、すごい声、音の世界でAI実際に使われるようになるとですね、より何か感情に訴えかけるコンテンツも作れることができるし、そこから倫理的な話もどんどん出てくると思うので、とりあえず技術だけはある程度もうここにセッティングされたっていうね、そういう怖い状況ではあるけれどもね。
さあ、あなたはどんなふうに使っていきますかということで、ボイスクローニングのね、そんなお話をしてみました。それでは今日も音の良い一日をお過ごしください。