ボイスクローニング技術とセキュリティリスク

AIが数秒で声モデルを生成するボイスクローニング技術について解説。手軽に試せる一方で、声の悪用リスクが存在します。サイレントキャストでの導入予定と、安全性を守りながら声優のような枠組みを実現する課題について語ります。

00:07

サイレントキャストニュース。このポッドキャストは、テキストで喋るポッドキャストプラットフォーム、サイレントキャストの情報をお伝えしていく番組です。

ボイスクローニング技術の紹介

パーソナリティのなっちです。さて、今日はボイスクローニングという技術について。今聞いているこの声は、ボイスクローニングという技術を用いてAIが生成した音声です。

10秒から30秒程度の録音をアップロードすると、ものの数秒で声モデルが作られ、任意のテキストを喋らせることができるようになります。

ナブルオアンニョワセヨ、ボンジュウ、ニハ、ナマステ、喋らせるたびにお金はかかるんですけど、それも思っているほど高くなくて。

ウェブサービスとして公開するときは、月々の無料枠を設けつつ、それ以上使いたいときはクレジットを買って使ってもらうみたいな方式がいいのかなと考えているところです。

ボイスクローニングの容易さとセキュリティリスク

ちなみにこのボイスクローニング、やろうと思ったら別に難しくないですよ。

ブラウザで手軽に試せるいろんなサービスがあります。手軽に試せる環境は整っているんですが、気をつけていただきたいのがセキュリティです。

サービスによっては、自分の声モデルを誰でも利用可能なように公開ライブラリに載せなければならないという制約があることもあります。

ということは、あなたの声であらゆる内容の音声が生成される可能性があるということです。

少なくとも今聞いていただいている程度のリアルさで、悪用される確率は低いのかもしれませんが、ゼロではないということは分かって使うことをお勧めします。

サイレントキャストにおける音声合成と声優の枠組み

サイレントキャストでの音声合成については、今複数のサービスを検討している最中ですが、少なくとも皆さんの声を危険にさらすことのない方法を選ぶことは絶対に必要だと考えています。

一方で、声の持ち主が望めば、サイレントキャスト内で自分の声を有償なり無償なりで公開するみたいな、サイレントキャスト内声優みたいな枠組みがあっても面白いかもなぁと考えてもいます。

考えているんですが、果たしてどういう同意の取り方をすればリスクを理解して正しく検討してもらえるのか、なかなか難しいところではあるんですけどね。

エンディング

さて、それでは今回はこの辺で、ボイスクローニングとそのリスクについてでした。また次回お会いしましょう。さようなら。

感想