首相の声にリアル変換．すごすぎる音声AI〜知的好奇心ラジオ

00:00

はい、おはようございます。6月6日のおはようラジオの時間です。

えーっとね、今日福岡は朝からね、雨が降っています。

さて、この中でね、今日お話しするのはね、昨日僕が出したAIテキスト読み上げ機能ですね。

これについてのことなんですけども、たくさんコメントをいただいたんですよね。

何かというと、あ、ナノさん、おはようございまーす。

あの昨日ね、テキスト読み上げ機能かなんかがね、実装されたので、

ちょいちょいスタイフにね、早速やってみたんですよ。

昨日の朝、ブログを書いたやつをテキストに書いて、

3人ぐらい用意された声のモデルがあるんですよね。

女性が1人と男性が2人。

男性も声が高い、ちょっと若めの方と低い声の。

僕は低い声の方を選んだんですけれども、

あ、ココさんだ。おはようございます。

なんと昨日、福岡タワーにまでおられたということで、びっくりしましたね。

いやその、だって唐津城から帰って福岡タワーって書いてあったんで、唐津城結構ありますよね。

とりあえず隣の県なのでね。あれは電車で行かれたんですかね。

本当にね、こんな近くにおられたのかと思って知ってたら、ぜひね、お会いしたかったですね。

またの機会にどうかよろしくお願いします。

本当にお疲れ様でした。

それでね、昨日その3人の声のモデルを選んでやるんですけど、

まあまあちゃんと読んでくれるんですよね。

漢字の読み間違いっていうのがあって、

何々される方はっていう方向の方ですね。

何々される方はっていうふうに書いたんですけど、

それを何々される方をっていうような漢字の読み間違いはしてくれるんですけどね。

まあまあ聞かれるような感じに喋ってはいますね。

ただ僕自身はですね、聞いてて、

あ、これまだまだまだだなと思ったんですよね。

よくYouTubeの動画とかで音声変換をして喋らせてるのがあるんだけれども、

抑揚とかちょっとね、まだおかしいですよね。

その域を出てないなというふうに思っていたところです。

昨日それにたくさんのコメントをもらったんですけれども、

やっぱりほとんどの人は、

りゅうさんの声がいいですというふうに書いてくれてるんですよね。

03:04

まあそうだろうなと思うんですよ。

だってその声を聞きに行ってるのに、全然違う声が喋ってたら、

わざわざその方の情報を取りに行くのに、その方のチャンネルに行かなくてもいいですよね。

まあどこかのニュースチャンネルがやってくれてるのを聞けばいいんで。

でもその人のところに行くっていうのは、

その人個人の声で喋ってるのを聞きたいから行くわけですよね。

じゃあなんでああいうのが出てきたのかというと、

なかなか喋れないとか話せないとか、

声の方の病気になってしまったとか、

そういうような声を出すということが、

物理的にも心理的にも難しいなという方のために、

ああいう機能っていうのはとても良いですよね。

そういうようなためにあるのであって、

僕が何かやらなきゃいけないというわけではないなという気がしてはいるんですけどね。

皆さんどう思いましたかね。

実を言うと、今日の話は、

昨日の昨日の話だって。

昨日のテキスト読み上げの話ではなくて、

実はディープフェイクですね。

いわゆるすごすぎる音声生成AIっていうやつで、

皆さんご存知ですかね。

岸田総理の声をそのままリアルに変換して、

喋っているという、そのような動画があるんですよね。

僕、昨日初めて知ってっていうのは、

昨日テレビ見てたらそれがあったんですよね。

もうすでにこのTBSの方では、

Nスタの方でもう1週間くらい前に放送されたらしいんですけど、

たまたま僕昨日は見たんですよ。

リアルタイムの放送でね。

これも昔に放送されたやつなんだなと思ったんですけれども、

今YouTubeの方にも出てて、

すごすぎる音声AI実際に使ってみたっていうね、

そういうのがあるんですよね。

何がすごかったかって言ったらね、

総理の官邸である方がデモンストレーションやってるんですけど、

何か覚醒器みたいなやつを口につけて、

これで岸田総理と同じ声で喋ってみますって言ってね、

喋ってるんですけど、

もう見事にそのままなんですよ。

欲要から間の取り方からね、

声の質、似てるなぁじゃないんですよね。

06:00

そのまんまの声なんですよ。

岸田首相横で見てて苦笑してるんですけど、

まあ俺ってそんな声なのかなとかいうような気持ちだと思うんですけどね。

あまりにすごいですね。

リアルタイムなんで、

いやーちょっとねびっくりしてね、

これはすごいな、やばいなと思ってね、

思って見てたんですけれども。

あのね、それはどういう状況であったかというと、

実際はそれがやられたのはね、

5月の最初の頃のようです。

5月9日の朝日新聞のデジタルの記事が今ちょっとあるんですけど、

岸田首相の声真似永遠なら自由自在、

技術者らが官邸で実演っていう記事があるんですよね。

まさに昨日テレビであったその様子が、

写真が出てるんですけど、

テレビはその方と首相の2人しか写ってないんですけど、

この別の角度からも見たらずらーっと周りに人がいてですね、

その真ん中にその方と首相がいてというような状況になっているんですよね。

これはね、9日に企業経営者らとかね、

AIに成立した技術者とかが意見を交わした、

その場面でのことだったみたいですね。

いわゆるマスクを着けて喋ると同時に声のコワイロが出ると。

ちょっとびっくりしたんですけれども。

皆さんおそらく同じことを思っていると思うんですよね。

やばいなって思われますよね。

あの時、去年の2月にウクライナ振興が始まって、

しばらくしてゼレンスキーのフェイク画像が出たのご存知ですかね。

テレビにゼレンスキーの顔が映って、

そして本当に喋っている顔で、声で、

もうやめるぞと、戦争をやめてみんなで降伏するんだみたいな感じの、

喋って、これはAIじゃんってみんなで言ってたのがありましたけれども、

あれを思い出しましたね。

映像なんていかんようにもできるから、

それに誰かが喋った声をそのまま当ててね、

もうやばいことを日本国民に向けて喋るっていうようなね、

そういうことだってできてしまうというのが、

これリアルにできてしまうじゃないですか。

それがめちゃくちゃやばいなと思って見てたんですけれども、

そういうことについて話をする会合の中でのデモンストレーションだったようなので、

ちょっと安心したんですけどね。

でね、なんでこんなことができちゃうのかというと、

09:01

前に声を録音しておいて、その声のファイルをね、

学習させるんだそうですね。

パソコンの中に取り込んで、2時間ぐらい学習させるんだそうです。

3年ぐらい前に、実はそういう技術があるよということで、

僕らのみんなのコミュニティの中で紹介してもらってたんですけど、

その頃はめちゃくちゃ難しかったんですよ。

人間の声の質っていうのは様々な要素からなってるんですけどね。

高さとか、声の質フォルマントっていう質もあるし、

本当に様々な要素からできてるんですけど、

それを分解して、それに一つ一つ当てていってですね、

非常に似たのを作り出してたんですけど、

その方が自分の声をそうやって作られているのにかけた時間たるやね、

それと労力たるやめちゃくちゃ大変だったんですけど、

もう3年後の今、その声の録音データを、

2時間パソコンの中に入れて入って学習させれば、

もうそれと同じリアルタイムでね、

リアルタイムで変換できるようなことができるようになるということが、

もうさったた3年でそうなっちゃったということで、

なるほどなぁということは、

技術っていうのはぐんぐんぐんと加速度的に伸びていくので、

じゃあもう2時間かかってるけど、

だんだんそれが10分とかに短くなっていって、

学習時間ほぼ0秒程になるのはもう目に見えてますよね、今後。

すると何が起きるかというと、皆さんがよく知っている、

あの名探偵コナンがね、蝶ネクタイに向かって喋るじゃないですか。

あれと同じことがもうできるようになるのも、

そんなに先の話ではないなと、

1年2年先ぐらいにはもうそれぐらいまでいくんじゃないかというのはね、

加速度ってすごいですよね。

で、やっぱり実際もこれを使っての、

思っていらっしゃるように犯罪ですよね。

オレオレ詐欺。

もう実際起こってるみたいですよ。

どこかの国の話だけれども、

娘さんがね、

あれだって、

私を?みたいな感じで、

事故に遭っちゃったの?みたいな感じでね、

スキーに行って事故に遭った?みたいなね、

なんかそんなのがあったんで、

大変だっていうことになったらしいんですけれども、

その時にはもう分かって、

事なきを得たという、

そのようなことだったらしいんですけれどもね。

いや当然そうだろうと。

12:00

今までオレオレっていう別の声で言ってて、

それでも騙されてたくらいなんですけども、

まあ今だったら、本当にオレオレ詐欺でその声でやればね、

完全に騙されますよね。

現在は、

10分くらいかけてその声を聞けば、

本物が本物でないか分かるんだそうですけれども、

まあそんなに時間かけずに、

分かるようにきっとなるんだろうけど、

でもね、その場で聞いたら、

あ、これ娘の声やーってなりますよね。

はい、なんかそういう風になってるみたいですよ。

声って、そうやって作った声というのに、

なんか著作権あるのかどうかっていう話がね、

出てましたね。

えっとね、

えっと、これはね、

若、

若方、若子なんて言うんだろうな。

なんかその、準教授の方が、

えーと言われてたんだけど、

うーんとね、

総理大臣は公人なので、

まあ写真はいちいち許可を取らなくても、

テレビに出すじゃないですか。

声の扱いっていうのはどうなってるんですか?

そういう心配になりますよね。

そうするとね、声の質に

肖像権的なものが発生するかどうかっていうのは、

議論があって曖昧なところだと認識してますということですね。

リアルな画像だったら許可取るってなるけど、

真似た声となると今のところはどうなのかなというところで、

まあ法の整備とかは今追いついてないという。

はい。

いやもう切り替え一つで、

急に別の人の声をパッとこう喋れるので、

数人の人がね、雑談している様子を、

一人でやるっていうようなこともね、

できるというようなことで、

まあすごい世の中になってきましたけど、

まあなんとかかんとか、

もう追いついていきましょうというようなお話でした。

はい。そろそろね、7時になりますので、

これで終わりたいと思います。

皆さんいかがお考えでしょうか。

はい。それではね、今日はこれで終わります。

あーココさんありがとうございます。

皆さん今日は聞いていただいてありがとうございました。

それでは今日はね、

あーのどさんありがとうございました。

はい。それではまた今日は良い日になりますように。

いってらっしゃいませ。

スター

エピソードをシェアする

メッセージを送信

りゅ〜

スター

コメント

こちらもおすすめ