-
-
Mika Ueno
あーすごい良いとこいってんじゃんと思ったんですよね。
私が音源編集のときに使っているiZotope RXっていうのがあって、
あれにもボイスアイソレーションっていう機能があるんですけど、
そのソフトめちゃめちゃ高いんですよ、10万以上するやつで、すごく綺麗に分離してくれるんですけど、
もしこれでできるんだったら、すごく便利だななんて思ってはいたものの、
聞いてみて分かった通り、私の声とかが途中から違う言語になったりするじゃないですか、
違う言語になったり、tsunamiとか言ってると思うんですけど、
フランス語なのか何なのか分かんないとこにフワーと変わっていって、
関さんは生ハムとか言ってる、生ハムが良いんですよねって言ってるときも、
分かんないけど判別できないけど、違う言語喋ってる生ハムが何とかみたいな感じで、
アイソレートするんじゃなくて追加してますっていう感じになってた、それが面白かった。
Nobuhiro Seki
今聞いたやつ、ソーシャルに上がってるやつってちゃんと聞いてたんですけど、
今って結構音が小さかったんで、ボヤッとしか聞こえなかったんですけど、
聞いてて思ったのは途中で韓国語に変わったなと思ったんですよ。
要するにイントネーションは似てるじゃないですか、韓国語って。
でも日本語じゃない言葉を喋ってるっていう、そういう感じ、つまり。
Mika Ueno
うん、そうそうそうですね。
Nobuhiro Seki
それがどういう風に聞こえるかなと思ったら、なんか韓国語喋ってるのかなと思ったっていう。
そういう。
Mika Ueno
私なんか英語でもないけど、なんかヨーロッパ系のどっかの言語みたいな感じはすごいしてて、
それが関さんの声と関さんのトーンの人の声になってて、
それがシームレスにフワーってモーフィングしていくみたいな、
顔のモーフィングしていくみたいな感じに聞こえて、
それがなんか最初、アイソレーションされる、環境音がパッと取り除かれてるのがすごいと思いつつ、
やっぱ日本語の言語と、言語の学習が多分まだ習熟してないんだなっていうのが分かったんですよ。
多分これ英語だったらすごい綺麗にボイスアイソレーションされてると思うんですけど、
他の言語だとまだまだなのかなと思ったのがすごく、最初はびっくりしましたけど、
ソーシャルで公開したらみんなが面白いじゃんって言ってる人がいて、ネタというかね。
Nobuhiro Seki
対応言語って書いてあったんですか?
Mika Ueno
特に書いてなかったですよ。
Nobuhiro Seki
英語みたいな言語だと、学習されてるみたいな感じなんでしょうね、きっとね。
Mika Ueno
サイトのURLこっちに送りますね。書いてなかったはず。
スラッシュボイスアイソレーターのピンクの波のやつですね。
これは言語ないですね。
同じだな。
今再生したようなやつですね。
この音だったら波形があって、この部分が環境音とかノイズだからそれを取り除くっていうのが処理だったりするじゃないですか。
ソフトウェア的には。
Nobuhiro Seki
アイソレーションね。
Mika Ueno
人の周波数のところだけを取り除くっていうのをやってると思うし、そういう機械処理してると思うんですけど。
このボイスアイソレーター使ってみて思ったのが、アイソレートというよりは別物のものが生成されてるんだなっていうのを違う言語でやるとなお強く感じましたね。
さっき聞いてもらったやつもそうで。
日本語喋ってるんだけど違うものにふわーって変わってて、全く違う単語ですら付加されてて。
それが生成AIって言われてる。本当生成されてるんだなっていうのをすごい感じました。
これは日本語が学ばれてるとか他の言語が学習されば多分それはすぐ良くなっていくことだと思うんですけど。
処理をしてるんだけど生成されてるんだなっていうのをすごく実感できるのがいい例だった感じがします。
Nobuhiro Seki
多分環境音が鳴ってても言葉って聞き取れてるじゃないですか。
例えばAlexaとかGoogle Homeとかって環境がうるさくても言葉は結構きれいに聞き取れてるじゃないですか。
だから多分とって素直にジェネレーションすると多分できると思うんですよ。
とってどんな声色で喋ってるのかって認識して、それを新たにその属性で作り直せば良いわけじゃないですか。
環境音を消すんじゃなくて、環境音付きで聞き取った内容をそもそもリジェネレートすればいいって話だから、
確かにそこだけにこだわってやると、特にちゃんと学習された人の喋り、
ここに至るまでに環境がないところで喋ってるやつ見れたりとかしていくと、
よりその人の言葉をスムーズに作ってくれそうな感じもしますよね。
ここまで行くとText-to-Speechみたいになっちゃいますけどね、やりすぎると。
Mika Ueno
そうかもね、やりすぎるとね。
今回このボイスアイソレーションだから、他のノイズを除いて人間の声だけ際立たせたいっていう結構シンプル単一機能みたいなところだったから、
私なんかはそういうのすごい欲しいので、サービスとしてすごい期待するし、
このぐらい簡単にファイル放り込むだけでできて、かつ10万円以上のソフトウェア必要ないよっていう風になったら、
これはこれで期待したいなと思う。
日本語の結果は今はこうだけど、でもそれでも最初の環境音をすってなくなった瞬間あったじゃないですか、さっきの再生でも。
あのぐらい取り除いてはくれるので、いいサポートツールとかになっていけばいいなと思う。
私たちはポッドキャストだけど、例えばうるさい場所でインタビューしてるのとか、あとはみんなで対談している音源録音とか、
いろいろあると思うんで、あと会議とかね、そういうのたくさんあるから、そういうところに使われるんじゃないかなっていう期待が増しました。
Nobuhiro Seki
やっぱり声の部分はかなりできそうですよね。
Mika Ueno
そうですよね。
Nobuhiro Seki
動画もね、短い時間でジェネレートできるようになってきてるから、それもそれですごいですけど、
声のところはもう本当に、それこそ日本語で喋ってるやつを英語で喋らせることもできるじゃないですか、今ってね。
Mika Ueno
あ、それでいけば今思い出した、TEDがちょっと前につけた機能?
Nobuhiro Seki
リアルタイム、別言語で喋るってやつでしたっけ?
Mika Ueno
リアルタイムじゃないですけど、TED Talksの、
Nobuhiro Seki
リアルタイムです、そういう意味じゃなくて、はいはい。
Mika Ueno
その動画で、任意の瞬間で、違う言語で喋らせると。
それが字幕とかじゃなくて、
今デモ動画を送ったやつなんですけど、この方は英語で喋ってるんですね。英語でプレゼンテーションしてて、なんかマルチリンガルみたいなお話をしてる人なんですよ、女性でね。
英語でプレゼンテーションしてるんですけど、下にボタンがあって、
イタリア語とかポルトガル語とか変えていくと、そのプレゼンテーションしてる女性の口のリップシンクもして、
その人がまるでポルトガル語喋ってる、イタリア語で喋ってる、フランス語でプレゼンテーションしてるっていうように見えるんですよね。
例えば関さんがそういうプレゼンしてたら、英語で喋ってるけど、中国語で喋ってるように、関さんが喋ってるように、
口の動きと、それからその人の声のトーンで言語を再生するっていうのを実装してて、
これがなかなかスムーズにできてたので、すごい面白かった。
これが自分の母語で見るとより実感できると思うんですけど、今は日本語なかったけど、他の言語とかで見ると。
Nobuhiro Seki
自分でやると。
Mika Ueno
多分その言語特有のイントネーションとか協調ポイントとかそういうのあるから、母語の人たちが聞くと、
ここの部分ちょっと強調するといいかなとかってまだ違和感はあるとは思うんですけど、
でもそれでもこのリップシンクとその人の声で違う言語で喋ってるから、この自然さっていうのはすごいなって思いますよね。
だから今まで字幕でしか見れなかったこのTED Talkとかも音で聞けるようになるし、
その人がまるで、例えば有名人が自分の母語で喋ってくれているようなもんだから、
それはそれでこのコンテンツを聞くっていうこの聞き方っていうのが変わってくるんだろうな、取得し方っていうのが変わるだろうなっていうのは思いましたね。
Nobuhiro Seki
やっぱりこれって本当にそのもう倫理が問われますよね。
ちゃんと翻訳されてるのかどうかわかんなくなっちゃいますよね。
Mika Ueno
このネットトークの場合なんかはスピーカーの人に許諾を取ってやってるからなんですけど、
いわゆるフェイク動画と同じような感じですもんね、やってることはね、悪用されると。
Nobuhiro Seki
特に例えば英語で喋ってる人は日本語で字幕で言ってても、英語もどのくらい聞けるかっていう差はあるにしても、
英語も聞いてるから日本語で意味を取るんだけど、英語のジェスチャーとか英語の内容で何となくニュアンスを取ったりすることもあるじゃないですか。
日本語母語の人でもね。
Nobuhiro Seki
でもそれが完全に隠蔽されちゃうから本当にちょっとしたフェイクを入れたりとか、
ニュアンスに合わせた表情の作り方をちょっとニュアンス間違えると逆の意味に取れたりするじゃないですか。
同じ喋りでも顔の表情で逆に取れるみたいな。
そういうふうになってもすごい難しいよなと思ったりとかね。
それこそイギリス人とアメリカ人で同じ言葉喋ってるんだけど、皮肉を言ってて逆に取られちゃうみたいなことも結構起きるんですけど、
まさにそういうのがこれできちゃうよね。
意図的にね。
Mika Ueno
そこもそうですよね。
言い方とかもあるし、この言語ではこういうニュアンスで表現する言葉なんだけど、
別の言語になると全然違う取られ方をするとかってコンテクストの問題とかもあったりしますよね。
Nobuhiro Seki
だからバイリンガルの人が自分だったら、
今これ見せたら英語とスペイン語になってるんですけど、
英語とスペイン語両方母語の人ってアメリカいっぱいいるんですけど、
自分がスペイン語で喋るときはこういう言い方しないみたいな。
絶対出てきますよね。
そういう意味で言うとそれをスペイン語で喋られた動画のほうが、
例えばメインに取り上げられるようになっちゃうと、
その人がスペイン語で喋れたりすると、
これスペイン語で喋ってんじゃん、お前そういう意図で言ったんだろうみたいな感じで。
これ違うよ、英語で喋ってそれをスペイン語にされたんだよって言っても、
そういう意味で言うとなんか違う。
自分の顔で違う言い方で喋らされましたっていう感じになったりして。
Mika Ueno
そうですね。リアルなものを別のものに置き換えて、
それを自然に自然に見せるっていうふうに言い聞きがちですけど、
その人のアイデンティティーもあるだろうから、
これは技術で置き換えていて、別の言語を喋らせていますよっていうのが、
なんか明示的に分かるようなものってのも必要になるかもしれないですよね。
フェイク対策とかもいろいろあると思うんですけど、
その人が喋ってるのはこっちじゃなくてっていう免責事項じゃないけどね。
ああいうのが必要になってくることもあるかもしれない。
すべてがシームレスにバッと置き換わって、
これがいいでしょっていうのを技術の方が先に先行するとそうなりがちだったりするじゃないですか。
そうじゃない。明示的な説明も必要になるかもしれないな。
Nobuhiro Seki
よくテレビの放送とかでも、今やってるライブとかリプレイとか、
録画ですとかって出るじゃないですか。あれだって、
今だと録画とか当たり前だからそうだけど、昔だったら録画ってこと知らなかったですと。
今やってる。
今流れてると思っちゃうんですね。
録画ですっていう。それと一緒でやっぱり今は、
これは別に喋ってるやつをリップシンクさせて別のものにしてますよっていうのを出すようにしないと。
Mika Ueno
そうですね。
日本人なんかは映画とか見ててリップシンク全然してないじゃないですか。
その俳優さんの口の動きとか、タイミングは声優さんが合わせてるけど、
完璧に一緒にはなってないから、
だからこれは吹き替えなんだなっていうのはボイスオーバーなんだってわかる。
Mika Ueno
それに慣れてますけど、それに慣れてない英語圏の人なんか多分そんなに慣れてないだろうから、
そこには慣れが必要で、
だからちょっとこう、完璧じゃない人よりリップシンクしてない方がわかりやすくなったりするかもしれないですね。
Nobuhiro Seki
言語が違うと結構、
日本語と英語って結論先に言うか結論後に言うかって差があるじゃないですか。
だから映画とかでも笑うシーンがずれるんですよね。
最初に言ったとこでも笑えちゃうところと、
日本語だと最後まで言わないと笑いがわからないとかっていう、
ワンフレーズが長かったりするとあり得るじゃないですか、言葉で言うと。
例えばそういうときって吹き替えとかってどういうふうにやってるのかなみたいな。
要するに統治して喋らせることによって画像と笑いが合うようにするのか、
それともあくまで日本の構造に合わせてやるとずれちゃう。
これちょっと前にここで話したようなこともするんですけど、
子供の学習用の音楽、音楽アニメ、音楽ミュージッククリップってやつなんですけど、
そこで船に乗って船の中を潜望鏡で見たら木が見えました。
よく見ると木の枝に枝がありました。
枝に何かの実が何とかしてましたっていうと、
日本語で言うと、上から言うじゃないですか。
海から下ろして木になって大きい方から小さい方にしていくわけですね、言うときって。
でも英語だと小さい方から大きい方に言うんですよ。
のみが木の上にいて、その木は海の中にあって、海の上に船がいます、私がいます。
日本語だと私がいて、私の下に海があって、海の下に木があって、木に枝があって、枝に行って、
それっていうのはワンフレーズで言うと結構10秒ぐらいのフレーズなんですけど、
英語で言うとそれに合わせてズームアウトされていくんですね。
要は一番小さいところからズームアウトされていくんだけど、
日本語の吹き替えにするとズームアウトじゃなくてズームインだから合わないんですよ、言葉が。
みたいなことがあって、これだから言葉的に絶対シンクロさせられないよね、みたいな。
これってきっとこういうことをやっていくときにどうしたらいいのか。
つまり順番を合わせてタイミングを合わせるのがいいのか、
その言葉に合わせて笑うタイミングがズレるのがいいのかとかっていうのって、
どっちも良くないしどっちもいいじゃないですか。
だからそういうこと一つとっても、どっちかが主流になると何か結構失われていくものがあるんだろうな、
情報量がそこで失われていくわけじゃないですか、っていうのはちょっと思ってて、
もうみんな英語的に合わせちゃうんだったら、
それはそれで英語によっていろんな英語的感覚で全部やることによって失われるものがいっぱいあるわけでもあるじゃないですか。
他の言葉が、他の言葉の文化とかね、そういうまさに今みたいなそういうこと一つとっても、
それを本当に一つの言葉にするのがいいのか、こういうふうに一個のコンテンツにするのがいいのかとかって。
Mika Ueno
どうやってもその文化とか言葉とかそれを尊重した方がいいですよね。
Mika Ueno
一つの言葉とかそのコンテンツと文化に合わせるっていうのはすごい乱暴な話で、
リップシンク一つにとっても英語はこうだから、他の言語もそれにっていうのはやり方とか。
それはちょっとって思いますよね。
Nobuhiro Seki
でもかなり世の中のものって英語化されてるじゃないですか。
英語にすごいいろんなテクノロジーが英語に引っ張られてるじゃないですか。
昔そんな話なかったけ、翻訳の人で、ほら英語によって。
Mika Ueno
英語化してるから、なるほどね。
AIよりも英語化してることの方がよっぽど危険だって、それはありましたね。
Nobuhiro Seki
そう、だから今の話って、これってテクノロジー的に言うと、
その要はまさにジェネレーティブAIの顔とかもそれに合わせるみたいなことなんだけど、
根源的にやっぱり英語化するっていうところの機能が強い気がするんですよね。
Mika Ueno
それによって、その方はですね、イタリア語とかフランス語とかの確か劇作家の翻訳の方だったんで、
英語化するっていうことの方が他のイタリアの文化なり、
フランス語の舞台の文化なり、そっちの方が壊れていくっていう、
仕事が奪われるっていうのに例えて話してましたけど、
通りだなと思いますね。
Nobuhiro Seki
このテクノロジーもやっぱりなんだかんだ言って、英語っていうのを中心に作ってると思うんですよ。
他の言語から英語にするとか、他の言語から英語にするとかっていう、
英語から他の言語にするとか、例えば日本語から中国語とか、
日本からフランス語とかっていうのは果たしてこのテクノロジーの中で言うと、
やっぱりサンプルも少ないだろうし、それがどんどん英語を一回ハブとしてかまして翻訳するみたいになると、
やっぱり英語にすごい引きずられますね、とかっていうのはちょっと思ったりして。
Mika Ueno
今英語挟んでる感じで、AIとかもそうですもんね、だって英語の情報が多すぎるから、
多いから、それ中心になっていきますけど、世界にある情報とか、
例えばロシア語の情報、フランス語の情報、中国語の情報とか、
それが学ばれていったら多分違う回答とかも返ってくるだろうし、
いろいろな結果も違ってくるんだろうなって。
このさっきのボイスアイソレーションとかも見て、
単的にそう思うじゃないですか、日本語の学習量って多分ないんだろうなと思うし。
Nobuhiro Seki
例えばね、それで言うと、中国語のコンテンツはあるんだけど、
例えば、メインランド・チャイナは本当にもっと鎖国するって言ってるじゃないですか、
そうすると、インターネット中にある中国語の情報って、とはいえすごいいっぱいあると思うんですけど、
国で縛られちゃうから、メインランド・チャイナの中での常識っていうのは確立されちゃうわけですよね、きっとね、それって。
つまり、中国圏で人同士でよく僕なんかが経験するのは、
僕が学生のときに結構ケンカしたのは、メインランド・チャイナの人と台湾の人が結構ケンカするんですよ。
ナショナルアイデンティティの問題でね。
そうするとやっぱり受けてきてる教育が違うから、もう全然噛み合わない部分が結構あるんですね。
でもそのときに、例えばそれって、シンガポールで教えられてる中国語とか、台湾で教えられてる中国語とか、
Nobuhiro Seki
アメリカで教えられてる中国語とか、メインランドで教えられてる中国語とかって、
中国語は変わんないんだけど、コンテンツは全然違うじゃないですか。
多分その体制とか。
だからそれっていうのがやっぱりバイアスかかるよねって思って。
だからそれがさっき英語っていうのにももちろんすごいバイアスかかってるんだけど、
じゃあそのAIで、だから中国語もやらなきゃいけないと、中国語のデータを学習させましょうとするときも、
メインランドになる中国語はあんまり取れないから、どうしても台湾とか、
中国、華僑のやつになりますみたいになると、やっぱりそれはそれで政治信条的とかに偏りが出るじゃないですか。
だからそういうのでやっぱり、いろいろ偏りを受けていく中で、
この研究が中心的に行われてるところが今アメリカだっていうところで言うと、
やっぱりアメリカに近しいところの政治信条思想的な影響を受けるんですね。
Mika Ueno
めちゃめちゃ受けますね。
Nobuhiro Seki
例えその国、敵対、敵対って言いますか、あんまり仲良くない国の言葉を選んだとしたら、
貿易戦争とかとは違うレベルのコンフリクトが起きてるよねって思いますね。
Mika Ueno
さっきのTED Talkのところに戻ると、これが個人的にすごい面白いと思ったのは、
技術屋さんがこう作りましたっていうのじゃなくて、TEDみたいにこれを世の中に伝えたいとか、
自分たちはこれをやってるっていうガッチリしたコンテンツがある人たち。
その人たちがじゃあ今のテクノロジー使って、これをさらに多くの人たちに伝えていくにはどうしたらいいかっていう使い方をしてたから、
それがすごいいいなと思ったんですよね。
ここで話されてるTED Talkとかって世界中のいろんな人たちがしゃべっていることがあって、
それも今までボランティアとかの努力とかでめちゃくちゃ多くの言語に翻訳されていて、
字幕にはなってはいるんですけど、それはそれですごく大変な作業ではありますけどね。
それを目で読むんじゃなくて、音で聞けるようになるっていうのはすごくよくて、
こうやって表現したいものとか伝えたいこととか、これをコアでやってるよっていう人たちってやっぱり世の中にたくさんいると思うんですよね。
そういう人たちが言語を簡単に置き換えて伝えやすくしてるっていう、この使い方がすごくいいなと思いました。
私が好きなアートとかね、パフォーミングアートとか、教育とかそういう人たちが使うといろいろな広がりがあるんだろうなというのが、
すってこう想像しやすい例だったから、これいいなと思いました。
Nobuhiro Seki
やっぱりこれオリジナルのクリエイターっていうか、スピーチで言うと喋ってる人がやっぱり100%コントロールできないと危ないですよね。
Mika Ueno
そうですね。そういう人たちが使うといいなと、こういうやり方ありなと思いましたね。
Nobuhiro Seki
一方でね、こういうふうにやるとスケールしづらくなっちゃうじゃないですか。
このテクノロジーはいいんだけどやっぱり日本語対応しないんだけど、この人が喋ってるやつを日本語で聞きたいって思ったときにやっぱり低きに流れてしまうので、
Nobuhiro Seki
そういう機能だから使うじゃないですか。
やっぱり使えて、別に本人は自分の喋ってる言葉で聞いて欲しくて、それはそうじゃないとニュアンスが伝わらないからともしても、
こっちのローカル側でいくらでもできちゃうから、そういうのをどういうふうに…
Mika Ueno
なんでネガティブに持ってくの?
Nobuhiro Seki
いやいやなんかね、ほらリミックスとか、そういうのって必ずネガティブとポジティブと両方の面があるじゃないですか。
だからこれってなんかリミックスみたいなもんだろうなと思って一瞬思ったんですよ。
Creative Commonsのときもやっぱりリミックスのライトをどうするのかとかって結構。
で、いろいろそのまま使っていいですよとか。
アースクリプト付ければOKとか。
そうそうそうそう。
だから、でもやっぱりそれによってできることもすごいいっぱいあるじゃないですか。
作ったもののリミックスでもいいですよっていうのと、こういう自分が喋ってるその思想とかそういった、
より何だろうな、人間の想像に近いところっていうのを、
どういうふうに着地させていくのかなっていうのは、
僕も最初Creative Commonsのときってすごい先までそこまで考えられなくて、
単にブログやっててやっぱり自分のコンテンツがどう好かれるのかってすごい重要だから、
ブログのコンテンツを出すときにどんなライトなのかっていうのは結構センシティブであるべきだよねっていうことで絡んだりしてたんですけど、
なんかよりこういうものってフェイク動画みたいなところのリスクもあるんだけど、
どうやったらそのどっちかっていうとポジティブ面っていうのがうまく作れて、
なおかつそれを仕組みもついていけるのかっていうのはどこまで話が、
要はAIとかって規制する話ばっかりが多いじゃないですか、どうしてもヨーロッパから始まるんだけど、
やっぱりそれを現場の人たちがどうやったらポジティブに使えるような権利とかディストリビューションの仕組みとかできるかなみたいな、
そんな活動にどういうふうに今なってるのかなっていうのはすごいちょっと。
あまりネガティブっていうリミックスって、
Creative Commonsのときはすごいこれって許すと結構荒れるんじゃないのとか思ったけど、
実際はすごいポジティブっていうか新しいものを作るって方向にもすごい使われてたような、
でなんかそこをさじ加減だなと思ってちょっと思いました。
Mika Ueno
勝手に作れちゃうところは多くはなりますけどね。
こういう公式で持ってるものとか、自分たちがやってるパフォーマンスとかコンテンツを出してる、
本人がやってるオフィシャル感じゃないですけど、そこでのコントロールになるでしょうね。
あとはフェイク動画も含めて個人で勝手にやるっていうのはもうそれは止められないから、
リミックスも含めてすべてそういう風になってるからですけど、
そこは規制というかしようがないから、
だからこういう自分たちが持ってるものをきちんと許諾を得てやってますよって、
公式の大元の人たちがやっていくっていうところ、そこにたどり着かないといけないんだろうなと。