XCrossing
ep70 「表情」と「声」が食い..

ep70 「表情」と「声」が食い違ったときに覚える違和感の正体は？

2024-03-06 34:28

ep70 「表情」と「声」が食い違ったときに覚える違和感の正体は？

spotify

apple_podcasts

youtube

Mika Ueno

Mika Ueno

Host

Nobuhiro Seki

Nobuhiro Seki

Host

コミュニケーションする上で「表情」や「声」が果たす役割は多い。また文化の差により、同じ表現でも、受け止め方がまったく異なってしまうことも

ゲーム中のキャラクターの顔のキャプチャと声のあて方のパターン

実在の俳優をキャプチャし本人が声をあてているのに、声が浮いていると思うことがあるのはなぜか、を考察してみる

CGで作られた顔の動きの制限をカバーしてストーリーに引き込む声の演技

話す言葉に乗ってくる感情と情景

ビデオ会議で気になるノイズは背景の環境音か人の声か

NTTの大規模言語モデル「tsuzumi」では、AIが人の声色や声に乗っている感情を理解するらしい

声に乗るものを理解するには、言語や地域で異なる文化的なコンテキストを高度に理解する必要がある

満足度調査やNPSで、日本人は低い値が出がち

アメリカ人上司は注意したのに、面談したフランス人の部下は褒められたと喜んだのはなぜか

「笑い」は共通の文化的コンテキストがないとなかなか難しい

同じ英語圏でもイギリスの笑いのポイントはアメリカ人には伝わらない

HoloLensの開発者の指摘：3D空間での設計では音を大事にするべき

片耳が聞こえない時、行方不明のガジェットを音で探す時に位置が分からなかった

エピソード内で取り上げた情報へのリンク：

テック業界で働く3人が、テクノロジーとクリエイティブに関するトピックを、視点を行き交わしながら語り合います。

及川卓也 @takoratta
プロダクトマネジメントとプロダクト開発組織づくりの専門家
自己紹介エピソード ep1, ep2

関信浩 @NobuhiroSeki
アメリカ・ニューヨークでスタートアップ投資を行う、何でも屋
自己紹介エピソード ep52

上野美香 @mikamika59
マーケティング・プロダクトマネジメントを手掛けるフリーランス
自己紹介エピソード ep53

Official X: @x_crossing_
https://x-crossing.com

サマリー

ゲームのキャラクターの声優と実際の俳優の無理解な違いについて話しています。AIの表現力には、「表情」と「声」が異なる場合、違和感を覚えることがあります。AIが聞き手の感情や声のトーンを理解し、適切な返答をするためには、マルチモーダルの評価方法や文化の差も考慮する必要があります。表情と声の食い違いによって起こる違和感の正体について考察しています。「表情」と「声」が食い違ったときに覚える違和感の正体は何でしょうか？

ゲームキャラクターの声優について

実在の俳優によるキャプチャと声の違和感

声と表情のずれによる違和感

「表情」と「声」の食い違いによる違和感

声のトーンの理解と返答の適切さ

マルチモーダルの評価方法と文化の差

表情と声の違和感

コミュニケーションの困難さ

多様性の重要性

効果音の存在感

立体音響の体験

00:01

Mika Ueno

XCrossing、英語でスクランブル交差点を意味します。

趣味も世代も、住んできた町も違う3人がスクランブル交差点で出会うように、

様々な話題を聞かせるおしゃべりの交差点です。

今日のXCrossingであなたが出会うのは、どんな話題でしょう?

Mika Ueno

こんにちは、上野美香です。

マーケティングとプロダクトマネジメントをやっているフリーランスです。

Nobuhiro Seki

ニューヨークから関信浩がお届けします。

現在はスタートアップの投資を中心にやっていますが、色々やっている何でも屋さんです。

Mika Ueno

今回も及川さんお休みの回です。

Mika Ueno

ちょっとしばらくお休みだったり、出られるときがあったりありますが、

今日は2人でやっていきましょう。

Nobuhiro Seki

なかなか市販機、市産が忙しい方が多いので、

機構もそうですけど、参加するの結構難しいですよね。

Mika Ueno

あのですね、ちょいと話の方向変わりますけど、

ゲームキャラクターの声優について

Mika Ueno

私最近、ゲームの新作が出てて、ずっと実況というか、

メインストーリーをつなぎ合わせたビデオを見るっていうのが趣味なんですけど、

それを見てるんですよ。

何回か言ってますけど、竜が如くっていうゲームが大好きで、

それを見てるんですけど、

1本あたり、1作品あたり18時間くらいあって、すごい長さなんですけどね。

そこが素晴らしいストーリーなので、引き込まれてずっと見ちゃう。

ゲームは、人をキャプチャーしてキャラクターにするっていうのもそうですけど、

オリジナルのキャラをCGで作って、そこに声優さんが声を当てるっていう、

そういう作り方なんですね。

だから完全に架空のオリジナルキャラっていうのに声優さんが声を当ててるパターンと、

声優さんじゃなくて俳優さんが声を当ててる場合もあります。

実在する本物の俳優さんをキャプチャーして、それを取り込んで、

そこにご本人が声を当てるっていうパターンといくつかあるんですけど。

竜が如くだと、何割くらいかな、架空のキャラなんですけど、

3割くらいは実在の俳優さんが出てくるんですよ。

その俳優さん本人で、もちろん一流の役者さんとかね、

そういう人が出てきているのにも関わらず、

ストーリー見てると声の演技がついてこないというか、

声と本人の3Dの見た目、ビジュアルが合ってなくて、

すごい違和感を覚えるっていうか、

すごい声だけ浮いてる感を感じるっていうのがちょっとあって、

今回の最新作もそうなんですが、過去作にもそれ何回もあって、

見ててやっぱ自覚的になっちゃったんですよね。

それがどんな名優であっても、

若くてもキャリアがある人でも関係なくて、

顔の表情がすごい細かく動くようになったんですよね、今の。

たぶんアンリアルエンジン5だと思うんですけど、

なったんですけど、リアルな3Dモデルだから、

ものすごい没入しやすくはなってる。

なってるんだけど、声が乗ってこないと、

そこにフッて現実に戻されるっていうか、

あれなんだ、全然合ってないみたいな感じになっちゃってる。

っていうのがすごい感じることがあって、

今回もそれはあったんですね。

でも一番ひどかったっていうか、言っちゃいけないな。

一番違和感感じたのは、

実在の俳優さんがやってるやつだったんですよ、過去作でね。

ものすごい名優さん。

Nobuhiro Seki

それって架空のキャラクターに声優さんが当てるんでも、

本人の取り込みに、本人のアバターに本人が当てるんでも、

関係なくですか?

それともリアルに顔の表情ができるようになったから、

逆に違和感ができたっていう話、関係なく。

Mika Ueno

これはリアルになってればなってるほどっていうのは、

あんまり関係ない感じがしてて、

もう10年以上前の過去作からずっとそれは感じてたので、

あんまりリアルだからっていうのは、

私の場合ですけどね、

あんまりそこは大きな要因ではないかもしれない。

この最新作はものすごいリアルだからなんですけど、

本人のキャプチャーに本人が声を当ててるのに、

すごい浮いてる感っていうか、

Nobuhiro Seki

とこがあるのは変わらないですね、やっぱり。

それって本人の表情とか逆に想像ができて、

要するにもう細かく見えるわけじゃないですか。

だからこんな時にこんな動きをするって想像できちゃって、

それとのズレがどうしても出るじゃないですか、ほんのちょっとでも。

だから違和感があって、架空の場合はそれがないから、

実在の俳優によるキャプチャと声の違和感

割と違和感なく感じるってそんなことなんですかね。

Mika Ueno

そうなんだろうな。

なんか表情が豊かにテレビドラマとか映画とか、

実写の映画みたいにこの目の動き、表情筋の動き、

髪の動きってすっごい微妙なものが動くじゃないですか、

ドラマとかって。

あとは体も動くし、それから出てくるオーラっていうんですか、

そういうのもあると思うんですけど、

ゲームのキャラになった場合は、

ものすごく細かく目とか口周りが動くようになったんですよ。

それが今作のすごいところなんですけど、

それがあっても、なんかやっぱり完璧に実在ではないから、

そこをカバーするために声の演技で、

ものすごくちょっと大げさにするところってあるじゃないですか、

声優さんの演技とかって。

ものすごくはっきり抑揚も言うし、

そこの部分で架空のキャラにドーンって没入できるのは、

やっぱり一流の声優さんの演技だなと思ったんですよね。

過去作の時はもっと荒いわけですよ。

3Dのキャプチャーとか。

ものすごくリアルなんですけど、

本当にバッチって止まってるキャプチャーなので。

そっちの方が断然、すごいリアルなキャプチャーできてるけど、

動きになった時にはやっぱり表情まだついてこないなと思うとか

たくさんあるんですけど、

でもそれでもそんなところじゃなくて、

ストーリーに吸い込まれちゃうとかすごいたくさんあったんで、

声の演技とかね、あるんだろうなと思いますよ。

Nobuhiro Seki

やっぱりね、アニメとかって全然追従しないですか、

顔の表情とかって。

だからそれでも逆に声の演技でストーリーに引き込むっていうことができている。

対してやっぱり表情とかがあまりにリアルだと、

それに合ったような声とかっていうのが、

逆にその微妙なズレがすごい違和感になっちゃうみたいな。

そんな感じなのかもしれない。

Mika Ueno

ズレは、例えばリップシンクできてないとか、

口の動きに言葉が合ってないとか、

そのリップシンクとか動きっていう点のズレ、

ディレイっていうのは多分ほぼなくて、

言葉に乗ってくる感情っていうですかね、

その部分な気がするんですよね。

ディレイとか動きの一致ではなくて、

アニメとか3Dキャプチャーで、

推察するにこんな今情景だからこんな感情ってなるわけじゃないですか。

それの乗せ方な気がすごいするんですよね。

演技の言いたいわけじゃ全然ないんだけど、

すごい名優さんがシリアスなところやってても、

なんでこんな棒読みなの?みたいに思うところがあるんですよ。

全然抑揚がないっていうか、

多分その名優さんは実写の映画になった時は、

多分動きとか顔の表情とかいろんなもので表現してると思うんですね。

その方が実写になった時のその場面と、

アニメとか3Dキャラとかにそれに声を当てた時っていうのは、

こんなにも違うんだっていう。

Nobuhiro Seki

それってよくロボットで不気味の谷とか言うじゃないですか。

あまりに人間近くなってくると逆に気持ち悪くなっちゃう。

それとちょっと似てるような人間のリアクションというか。

Mika Ueno

そうですね。

人間の脳が反応するところはここなんだなっていう感じがします。

特に私は声が好きだっていうのもあるんですけど、

全ての声優さんが素晴らしいってそういうわけじゃなくて、

本当に一流の人たちの演技が本当にすごいからびっくりしたんですよね。

その声優さんとかとの違いっていうのはめちゃくちゃびっくりしたのは、

今作で特に思いました。過去から思って。

聞きたい音が入ってくる、

注意が向く音が入ってくるっていうのは、

この作品もそうなんですけど、

この収録とかね、他のビデオ会議やってた時も、

背景の騒音で、

例えば工事の音ですとか、

空港のザーッという音ですとか、

街の雑踏ですっていうところはまだいいんですよね。

でもそこから後ろに人の声が聞こえますとか、

オフィスの中でよくあると思うんですよ。

PCとかバーッと広げて全部音拾っちゃうみたいな。

あんな時に人の声が入ってくるっていうと、

その声に全部耳が持っていかれて、

普通の雑音とだと全然比べ物にならないぐらい

自分が集中できなくなっちゃうっていう経験で、

好きさもあるかもしれないですけど、

人の声が聞こえるように脳はできてるんじゃないかなって思う時はありますよね。

Nobuhiro Seki

なんとなくコア色でその人の表情とかも想像してますよね。

怒ってんじゃないかとか、笑ってんじゃないかとかって、

電話とかでも想像できるじゃないですか、多少は。

だからその想像してるものと、

実際に出てきてる表情がちょっとずれてるっていうのが

すごい気持ち悪いじゃないかなって思ったんですよね。

声と表情のずれによる違和感

Nobuhiro Seki

要するにアバターとかでも目しかありませんとか、

こういうキャラクターですみたいになると、

それってあまり外れてるから全然構わないんだけど、

妙に近くなってきた時に、

なんかすごいちょっとだけずれてるってすごい違和感あるじゃないですか。

いつもと違う、だから逆に言うと、

この人いつもとちょっとだけ表情のツールが違うなとか、

だから嘘ついてんじゃないかとか思ったりするわけじゃないですか。

だからそういうことが逆に人間ってよくわかるようになってたりするのかなと思うんですよね。

ほんのちょっといつもと違うみたいな。

Mika Ueno

背景音もそうだと思うし、

声に乗っかってくるものとか、

人間の声の、人間の音の識別とかって結構大きいなっていうのを感じてるのと、

ついね、こないだ人に教えてもらったんですけど、

日本のNTTが開発している、

日本語の大規模言語モデルのがあって、

それのシリーズ、スズミっていうらしいんですよ。

Nobuhiro Seki

これ?

Mika Ueno

ローマ字でパンパンと届く、

このスズミのT-S-U-Z-U-M-I、スズミって書くんですけど、

それが一連のシステムになってて、

その中で聴覚があるAIみたいな表現してたんですね。

ウェブサイトかな。

聴覚とか視覚があるAI。

何のことかなと思ってわからなくて、

説明のビデオを見たんですけど、

動画を見たんですけど、

そこには、

「表情」と「声」の食い違いによる違和感

Mika Ueno

例えば私がAIに話しかけるときに、

いやまだプレゼンテーション明日のできてないんだよね。

って言うとAIが答えると。

その答えのパターンが2つあって、

このスズミの感情、聴覚を理解するAIの場合は、

大丈夫ですよ、まだ時間もあるし、

うまくやればきっとできますっていうのを先に返してくる。

パターン2の場合は、

プレゼンテーションの場合は、

シンプルなタイトルをつけてアウトラインを何とかでみたいな、

至って真っ当なことを返してくる。

聞きたいことはこれじゃないみたいなね。

そういう答えだったらしいんですけど、

その発話者の声のトーンに何が乗っているのかっていうのまで、

理解した上でそれを返してくるっていうことらしいんですね。

それが聴覚があるAIって表現してたんですけど、

声に乗っているものが何かっていうのを理解するっていうのを理解したときに、

なるほどと思ったんですけどね。

Nobuhiro Seki

それで感情のトーンを音で聞き分けて、

それに合ったようなのを返すっていうことなんですね。

Mika Ueno

そうそうそうそう。

Nobuhiro Seki

不安に思っている声とか、

欲望がないですとか欲望がありますとか、

声のトーンの理解と返答の適切さ

Nobuhiro Seki

そういうことでこの人やる気なんだとかやる気ないんだとか、

そういうのを全部声色から察知するっていうのは、

それがつづみのポイントなんですね。

Mika Ueno

聴覚があるっていうところが聞かれたんで、

そこしかまだ見てないんですけど。

Nobuhiro Seki

確かに今見てると視覚と、

つづみは視覚や聴覚といったモーダルに対応しって書いてあるから。

Mika Ueno

マルチモーダルっていうのを標本してますよね。

その声に乗っかってくるってやつは、

聴覚っていうか、

声に乗ってるものを理解するっていうのはものすごく大事だと思うんだよね。

さっき言った、

特にボイスでやりとりする場合になったときは、

その人が何を言ってるのかって、

多分声のトーンで全く変わったりするじゃないですか。

こんにちはって言うときと、

こんにちはって言うときって絶対違うと思うし、

プレゼンまだなんだよねっていうのと、

プレゼンまだなんだよねでもねっていうふうに言うときと多分違うと思うので、

そこはすごく大事でポイントだなとも思う一方で、

これってものすごい文化的なというか、

その言語が持ってるコンテキストを、

すごい入っているコンテキストのものを理解した上でのことになるから、

すごい情報量だろうし、

全世界で共通っていうのはそんなに多くないんだろうなっていうのは思いました。

各言語で、各地域で扱われている感情というか表現というか、

そういうのがあった上でのことだと思う。

マルチモーダルの評価方法と文化の差

Nobuhiro Seki

そういう感情とか文化の差みたいなやつって、

結構統計とかにもすごい出るじゃないですか。

よく調査してて、

日本人は例えば満足度が最低ですとかってよく出たりするんだけど、

それってじゃあ、

ネットプロモータースコアとかみたいなやつ、

日本ってすごい低く出るんですよね。

ネットプロモータースコアだと10か9じゃないとプラスにならないとかってあるじゃないですか。

だいたい日本人って普通に出ると8つけるから、

そもそもプラスにならないとかっていうのがあったりとか。

だからそういう評価って、

実はキャリブレーションしないといけないじゃないですか。

キャリブレーションしない状況で、

やっぱり比較しちゃうと、

極端なものをつけないっていうカルチャーの場合は、

極端なものをつけるところに比べて、

数字が出にくいよとか。

でもやっぱり国際的にバーンと比較すると、

国ごとによって違うのは、

そういうのはだいたい考慮されずになるんで、

それって本当に、

意味がなくはないと思うんだけど、

実際に比較するときにどう比較したらいいのか、

みたいなところはまだやらないといけないところがあると思うんですけど、

このまさに音声とか感情とか、

そういったもののマルチモーダルごとの評価の仕方とかっていうのも、

同じ英語だと多分アメリカとイギリス全然違ったりするみたいなところもあるんで、

これって多くすればするほど丸まっちゃうじゃないですか、

最大公約数みたいになっちゃって、

でもなんかすごい特化したときに、

それとそれじゃない、その対象とその対象じゃないところを、

どうやって比較するのかみたいな。

なんかそういうところがね。

Mika Ueno

そこはありますね。

ちょっと前にマーケットの友達とかとNPSの話をしてて、

NPSのネットプロモータースコアで、

よく皆さんアンケートとかにあると思うんですよ。

これをU字に進めたいですか、1から10みたいなね。

10が最高、1が最低。

基本的には9と10をつけないと進めっていう風に分析的にはならないんで、

それを知ってる人とかマーケットの人たちはだいたい全部、

悪くないんじゃないって言ったら全部9から10つけるんですけど、

日本人は必ず真ん中からちょっと上ぐらいしかつけないと。

それは本当にそうで、

これのチューニングは必要だよねっていう話はしたりしてましたね。

多分やってるところもあると思います。

さらに前だとアップストアとかの評価もそうで、

自分が働いていた前の会社とかだと、

日本はとにかく星1個低く、1個が1.5とか低く出る可能性はあって、

文句があるときしかコメント書かないとかね。

だから評価を低く出る傾向があるっていうのはよくあった話で、

そこは北米の本社とかでも、

他の地域とかでもほぼ常識になりかけてたんですよ。

日本はちょっと低く出るみたいな感じで、

そこはちゃんと通常のエネルギーの何倍もの強さで説明していかなきゃいけないので、

ものすごく骨折れるんですけど、

ユーザーの傾向っていうのはありますね、すごくね。

あとこれは評価じゃなくて、普通のコミュニケーションもそうで、

アメリカとか北米の人とか他の地域、ヨーロッパとか、

ああいう人たちと話すときも、

普段の自分の自信とか、あと元気っていう、

これが例えば自分が100%ですごい元気って思ってるところの倍以上のエネルギーで話さないと、

今日何か調子悪いなとか、

彼女はどうしたって言われてしまうので、

自分の倍の元気で倍以上でっていうのはすっごい疲れるんですけど、

そういう普段のコミュニケーションが違うというのはありますね。

それも声とかボディランゲージとかそういうものにいろんなものが乗ってるからだと思うんですけどね。

Nobuhiro Seki

前、結構前にこの話ちょっとこのポーズキャストにもしたかもしれないんですけど、

The Culture Mapっていう本があって、国によってこの本だと10個ぐらいパターンがあって、

要はトップダウンかボトムラップかとか、直接的に批判するか間接的に批判するかとか、

なんかそういういろんな国によってパターンが違いますよね。

ハイコンテクストですかローコンテクストですかっていうんですけど、

その本の結構冒頭に出てくるこんなことが複数の国をまたがってありますよっていう例として出てくるのが、

フランス人のインターンかなんか若い人がアメリカ人の上司について仕事をしていて、

で、仕事があれでいくとフォアノーマンでフィードバックするじゃないですか。

で、フィードバックしたときに、この上司の人は確かね、インシアルのプロフェッサーかなんかなんですけど、

もともとアメリカ人で今フランスから住んでるんですけど、

そういう国際マルチナショナルな国のエグゼクティブとかそういう人たちのコンサルをしてる。

で、実際にあった評価っていうのはさっき言ったアメリカ人の男性の上司とフランス人の女性のジュニアの人があったかな。

で、両方にそのコンサルの人にインタビューしたら、上司は直してほしいことがいっぱいあると部下の人にね。

って思ってそういうふうに伝えました。

でも、部下の人に聞き取り調査をしたら、すごい上司が私のことを買ってくれてるっていう評価で、評価が全く逆になった。

どういうことかっていうと、アメリカ人って本当に言いたいことを最後に言うじゃないですか。

最初すごい褒めて、あなたこういうこといいですね、いいとこすごい言って、

最後に言いたいことが出て、特にシリアスでヘガティブなことって後に持ってくるんですけど、

フランス人って逆らしいんですよ。

最初にダメなことあった、これはダメだと言うらしくて、

フランス人からすると最初にすごい褒められたから、後の方聞いてません。

もうこの上司は私のことを最高に買ってるって思いました。

で、上司はあれだけ伝えたんだから100%伝わってるはずだって言ってるわけですね。

要するにこういうの直してほしいっていうの、すごいちゃんと伝えた、あれだけ言って分からなかったら分かるわけね。

俺どうすればいいんだみたいなことを思ってました。

でも実はそれって説明の仕方のレトリックじゃないですか。

これ文化の差だから、みたいなことが頻繁に起きますよね、みたいな話をしてて。

昨日とかもタクシーとかUberみたいなやつで、

最近ここ数年ニューヨークはテスラYしか走ってない、全部電気自動車っていうニューヨークローカルのUberみたいなやつがあるんですけど、

それに乗ったら終わった後の評価で5段階あるんですけど、

5段階の一番上はIncredibleとか書いてあるんですよね。

Great、Goodみたいなのが書いてあって、

星が何もなく1から5個だと、よっぽど文句ない限り5にするわけですね。

4とか3ぐらい、4とかになるとすでにどこをインプローブしたらいいですかって聞かれちゃうわけですよ、すでに。

Mika Ueno

そうですね。

Nobuhiro Seki

だから基本的に文句なかったら5じゃないですか。

でもIncredibleって書かれちゃうと、Incredible、Great、Goodとかになっちゃうと、

ちょっとこの人、Incredibleじゃないよね、みたいな。

要はかもなく、不かもなくだから普通のUber基準の5なんだけど、

ちょっとこの人そこまでじゃないよね、普通のナイスドライバーだよねって思った時に、

これって4か3をつけろって言ってんだよねみたいな形容詞で言うのを感じたりして、

これで5をつけるって結構難しいよねとか思ったんだけど、

でもこれアメリカ人関係ないのにピッて押したりするのかなとか言うのあって、

すっごい悩んで5、4ずっと行ったり来たり行ったりして、

とりあえず5にしたんですけど、

表情と声の違和感

Nobuhiro Seki

でもなんかすごいそういう感じますよね。

Mika Ueno

ちょっとだけここの部分はあんまり言わないから、

少しだけぼかしておこうなんていう感じで、

1on1の面談、例えば人事の人とかとの面談で、

とりあえずポジティブに見せた方がいいし、

特に問題ないよみたいな感じで伝えた方がいいんだけど、

ここの部分だけちょっと控えておこうかななんていう感じで日本人が望んだら、

それがだいたい伝わるんですよね。

そうするとシーワーズのリザーブドとか言われちゃうわけですよ。

全然私はそんなこと言ってないのに、

そう伝わったんだみたいな感じはいろんな失敗とかありますね。

ここだって部下にも言われますからね、リザーブドって。

やっぱりあるんですよね、出ちゃうんですよね、そこのとこね。

少しだけでもカバーしておこうとかっていうように思うと、

言葉とか多分表情とかいろんなものにそれが乗っかってくるんだと思うんですよね。

ここは言わないでおこうじゃなくて、ここを喋ろうというふうに意識をそっちに持っていくと、

多分いいんだろうな、ちょっと演技というかね、それも入ってくるんだと思うんだけど。

Nobuhiro Seki

それもそのフィードバックしてくれてる人はアメリカ人じゃないんですよ。

だからアメリカ人だとこっちもアメリカ人と思ってやるじゃない。

でも国がいろんなバックラウンドでいるから微妙に外国人でアメリカに暮らしてる人とか、

外国人で日本に暮らしてる人とか、そういうパターンが僕の部下とか多いんで。

だからストレートにその人もパターンじゃなくて、こっちもこっちで、

この人はどういうふうに言ったら彼女、彼、的な感じで僕の言ってることが伝わるのかって、

考えながら喋ったりするんで、それが合わない時とかっていうのは全然上手く伝わらない時とかも多分あると思うんですけど。

Mika Ueno

笑い取る時なんか多分めちゃくちゃ苦労するでしょうね。

それこそコンテキストが分かってないと笑いにならないっていうのがいっぱいあると思うんですよ。

映画とかなんか特に。翻訳者さんのインタビューかなんかで読んだことがあります。

ジョークとか笑いの時がすごい大変。

しかも文字数とか伝えるタイミングが間が決まってるから。

Nobuhiro Seki

だから笑いがずれる時ありますよね。

笑ってるタイミングが先に日本人が笑って、その後外国人が笑うとか逆のパターンがありますよね。

ここまででもコントロールできないですよね。

Mika Ueno

それが違いが、言語の違いと文化の違いであって、グローバルにはならないっていうか、そこでなる必要はないと思うんですけど。

Nobuhiro Seki

それはやっぱりその言葉の言葉で理解しないとそこは埋められないですよね。

そうですね。本当にそう思います。

コミュニケーションの困難さ

Nobuhiro Seki

言葉だけじゃないですからね。文化もね。

ロンドンに留学してた時に、プログラムマネージャーの人はアメリカ人でしたけど、10年くらい経ってたんですね。

プログラムの中で1日体験で、コメディースクールに1日体験するっていうのがあったんですね。

それってアントリプレナーシップスクールだったんですけど、

要はプレゼンテーションの資格とかそういうのを学ぶために1日コメディースクールに入るってなって、

それはなんかエグゼクティブクラスのみくらしいんですよ。

結構すごい高いのがイケるんだから絶対行った方がいいって言われて、

普通にやると1日50万とか取られるらしいよって言われて、

それラッキーと思って行ったんですけど、アメリカ人のプログラムマネージャーと話したら、

いやもう私も10年いるんだけど、何でここでみんな笑うのか分からないんだよねって言ってて。

Mika Ueno

笑いのコンテキストね。

Nobuhiro Seki

だからその笑いのコンテキストが分からないから、

もちろん言葉では笑いにしないようにするのもあって、

言葉を発せずにこれを表現してくださいとか、

ジェスチャーと何とかだけでこれで笑いを取ってくださいみたいなやつもあるんですね。

やっぱり言葉だけでは伝わらないっていう中で、

どうやってエグゼクティブとして演技をしましょうみたいなそういうところもあって、

そういうのがあって、それはそれでイギリスもね、

いろんなカルチャーの人がいっぱい来てる場所でもあるんで、

そういうことを意識してやってるんだ。

イギリスとアメリカで既に伝わらないんだから、

それは普通に言葉で言ったら伝わらないし、笑いも伝わらない。

でもやっぱりそれをどうやってなるべく伝えるようにするのかって、

大英帝国は考えているんでしょうねとか思いながら授業を受けてましたね。

楽しいですよ、でもね。

最近、ペーパルの本が出たんですよ。

1年くらい前だったと思うんですけど、

ペーパルってどんな2年、3年だったかって、

そんなディテールに書いてある本はなかったんですけど、

その本がすごいディテールに書いてあって、

その中で結構外国人の人もいるわけじゃないですか。

イーロン・マスクもそうだし、

デイビッド・ザック、南アフリカ人だったりとかしてて、

なんで外国人がアントレプレナーとして強いのかっていうと、

今みたいに何もコンテクションが通じないところで、

すごい苦労をどうやって解決していくのかっていうのを

いつもやってるじゃないですか。

いつもやることになるじゃないですか。

まさにさっきの通じないとか、

通じないけど誰も助けてくれないみたいな局面がすごく多くて、

解決していくっていうのは新しいチャレンジに対して、

一瞬に対して自分なりにいろんなパターンを

なんとかして解決していこうっていうのとすごい似てるから、

それは外国人がやっぱり外国に暮らして、

そこで新しいことをしましょうっていうのは、

既に日頃の生活の中でそういうことをやってて、

蓄積がある人とそうじゃない人にやっぱり差があるのは

当然なんじゃないみたいなことを書いてあって、

今コミュニケーションの中でやっぱり、

ちょっと無理矢理自分のスタートアップの話になっちゃうんだけど、

企業ってそういうもんだよなってちょっと、

今までコンフォートゾーンじゃないところに入ってくるわけですよ、

基本的に。

それは今言ってたいろんなパターン、

なんかすれ違い、不気味さ、気持ち悪さ、

みたいなものをどうやって折り合いつけて、

それ何に対処してってそこそこの結論を出すのかみたいな、

そういうのに近いんだろうなっていうのをちょっと。

なんかやっぱハイコンテクスト日本だと、

なかなかそこっていうのを、

多様性の重要性

Nobuhiro Seki

そこに入っていくのを良しとしないっていうのは、

それはね、

入っていかないでいいんだったら入っていかないほうがいいわけですよ、

楽だもんと思ってて。

Mika Ueno

共通にできる土台が多いですからね、

文化とかそういうところがね。

でもこれからまたいろいろ、

多様性とか言われてるんだけど、

いろんな人たちも、

国の人たちも、

文化の人たちもいるから、

緩やかに変わってくるんじゃないですか。

アメリカほどガーンっていう、

かわいかったとかじゃなくて、

緩やかに変わっていくんじゃないかなとも思いますけどね。

Nobuhiro Seki

多様性ないと楽ちんだし、

すごい良いと思うんだけど、

これはよく、

疫病の発生とかのパターンじゃないんだけど、

大多数が持っているものが、

本当に価値が崩れるときに、

全員総崩れになっちゃうんじゃないですか。

だからダイバーシティあると、

普段はすごい効率悪いんですけど、

ニューヨークとかもすごい効率悪いんだけど、

何か起きたときに、

99%それに負けるみたいな人はいない。

そういうオーディエンスはないんですよね。

みんなバラバラなことやってるから、

その人たち全員に悪影響を与えられるようなものって、

そんな多くなくて、

このパーティーにはすごいネガティブに働くけど、

このパーティーはあんまり影響を受けませんよ、

みたいなやつが結構多いから、

多分生き残りやすい。

新しいものが来たときに、

生き残った人たちがガーッと伸びていくっていうことができる。

全員がうまくいっているときは、

ずらっとうまくいっているけど、

全員の人たちに対してネガティブなやつが来ると、

全員倒れちゃうみたいなのがあるじゃないですか。

それがバブル。

すごい俺がやったこと、

全部当たったみたいな感じで、

ワーッときてて、

すごい急に伸びてて、

でも世の中が変わったときに、

そっち側のパターンは全く誰一人想像してませんでした。

急にダメになるみたいな。

いうのがやっぱりモノカルチャーのところでは、

起きやすいんだろうなと思います。

Mika Ueno

もう一個ね、今ね、

途中で思い出して入れる場所ないなと思ったんですけど、

とりあえず言いなきゃ言っといていい?

音のね、人間の脳が聞きたいものを聞くっていう話に関連なんですけど、

別に声だけを聞きたいわけではなくて、

音で判断していることってすごい人いっぱいあって、

もうなくなっちゃいましたけど、

HoloLensってあったじゃないですか、マイクロソフトの。

HoloLensのチームが、

カンファレンスで一番最初にUIとか発表しているときに、

開発者の人たちがすごい強調してたのが、

音をめちゃくちゃ大事にしろって言ってたんですよ。

ビジュアルの表現も、きれいな表現も、

もちろんそれも大事なんだけど、

これを動かすときに、

例えばカチッとする音とか、

何かを触ったときの音とか、

音で表現するものがこの3D空間の中では、

すごくポイントになるから、

そこにめちゃくちゃ気遣えみたいなことを、

プレゼン、デベロッパーカンファレンスかな?

で言ってるのがあって、

へーとか思ったんですけど、

実際自分が3D空間とかで体験してみると、

確かそうなんですよね、

ボタンを押すっていうときに、

何の空間をただ手をパカパカしてるだけだから、

何のフィードバックもないわけですよね、触覚の。

そこに音がカチッと入るとか、

ビジュアルでは平面を押したときに、

指がそこに吸い付くような感じがするだけでも

全然違うじゃないですか。

そこで音が、人間の脳が規定してる音のフィードバックっていうのが

必ずあるなっていうのを感じたので、

あとになってようやくアフロレンズのスタジオに行ってたのが

効果音の存在感

Mika Ueno

こういうことなんだっていうのを思いましたね。

あとゲームとか映画とかの効果音でも、

実際にはほぼ聞こえないんだけど、

すごい大げさに出る効果音っていうのがあるらしいんですよ。

ワイヤードの前、

プロだけどなんか聞く音あるみたいな動画で言ってたんですけど、

例えば手を握るときに、

手を握るときって音ほとんどしないじゃないですか。

そのだけだけどギューッと音するのあったらすると思うんだよね、ゲームとか。

あと銃を取り上げるときの音とか、

あれもほとんどしないんだけど結構大きめに入れてるとかっていうのを

裏側やってて、

ああなるほど確かにって思ったんだよね。

立体音響の体験

Nobuhiro Seki

それがちょっと面白かったっていう話ね。

音ね、音はすごい。

僕今ちょっと左耳があんま聞こえてないんですよ。

Mika Ueno

大丈夫?

Nobuhiro Seki

ちょっと断腸なんですけど。

昨日、

子供の持ってるGPSのトラッカーが見つからなくて、

家の中にあるってことが分かって、

もう大体どの辺にあるか分かったんですけど、

だからもう音を鳴らしてピーって鳴らしてたんですけど、

初めて今の片耳しか聞こえないから、

この一角で鳴ってるって分かるんだけど、

どこか分かんない。

ああそう。

だからこうやってやってこう動かすって言っても、

5次元の方向しか分かんないですね。

だからこっちの方にやってこうやってやると聞こえなくなるんだけど、

それって物が一個裸で出てるんだったらいいんだけど、

服の中に入ってますみたいな感じだと、

当然音が反響するじゃん。

だからその反響で3Dでどこにあるのかっていうのが、

片耳だと分かんないんですよ。

Mika Ueno

本当に立体音響のやつですね。

Nobuhiro Seki

そうそう。

Mika Ueno

ステレオの左右だと奥行きとかあるんでしょうね。

Nobuhiro Seki

そう、だから目の時も片目だと奥行きが分かんないって言うじゃないですか。

でもだから完全に耳もそういうふうになってて、

だから結局分かんなくて、

Mika Ueno

片方だけで探すんですか。

Nobuhiro Seki

できる限り見つからなかったんです。

で、それを閉まった、

ベビスタン人が閉まってたはずっていうか、

知ってるだろうと思って電話して、

ないんだけど、この辺りなんだけど、

どっか覚えてないって話をしたら、

あのジャケットの胸ポケットですって言われて、

こうやって出したら出てきたんですけど、

それ鳴らしても見つからないのかなって思って。

Mika Ueno

そう、面白いですね。

Nobuhiro Seki

そっから音がいろんなところに反響しちゃってて、

だから複数から取れないじゃん。

複数じゃないから、

一方向だと反射の方が大きく打たればそっちに聞こえちゃうじゃないですか。

でも複数反射があったら、

多分立体の位置が分かるんですよね。

Mika Ueno

立体音響とかね、それで最近収録してくれる

ポッドキャスターさんもいたりとかするじゃないですか。

その時に鳥が左奥から聞こえてくるっていうのとか、

そういうのを本当に、

あれね、歩きながら聞いてると本当に危険なんですよ。

現実世界とあれ?と思ったりとか、

車が通り過ぎる音とかもすごい、

奥行きとか距離感が分かると、

すごいなと思う。

話してる人の声は自分の脳の真ん中から聞こえますよね。

あそこだけがね。

前方から聞こえてきたりとかっていうのはあったりするけど、

でも収録するときはマイクの中心に声があるから、

その通りだな。

その通り再現されてるんですけど。

Nobuhiro Seki

音はね、昔からまさに

ここに聞こえるんじゃなくて、

ここに聞こえるようにするっていう。

テクノロジーとしてはあるけどやっぱり、

そんなにずっと疲れてなかった。

音は本当にサラウンドのスピーカーとかで聞いてると、

シアターモードにするといろんなところが聞こえるじゃないですか。

気がつくとやっぱりそういう場所に

自分を置いて聞くことはすごい減っちゃってて、

一時期はテレビを置いて7.1だとかやってやってたんだけど、

結局気がつくと、

普通のヘッドホンとかでやってると、

ある程度の効果はあっても、

そこまでの効果は得られないし。

Mika Ueno

対応してないよね。

Nobuhiro Seki

そうすると、やっぱりだからこそ、

本当のライブに行くとか映画館に行くとかっていう体験と、

それ以外の体験っていうのがすごい大きく。

デジタルだから、

もとの操作は一緒でも、

そのアウトプットの仕方でやっぱり全然体験が変わる。

だからそこにお金を払うんですっていうのがやっぱり、

この10年20年の流れなんですよね、きっとね。

感情が乗る声、音からのコミュニケーションの話ですね。

そうですね。

人と人のコミュニケーションから文化と文化のコミュニケーションの話。

34:28

コメント

こちらもおすすめ

93- 日本がどうなったら海外のエンジニアは日本に帰りたいと思うのか

はろーわーるど！ - 世界で働くエンジニアのポッドキャスト（旧バンクーバーのえんじに屋）

ep70 「表情」と「声」が食い違ったときに覚える違和感の正体は？

ハード・ソフトを超えて："ピープルウェア" #1

Cobe.fm 本好きコンサル2人の読後感想戦

THE SOUNDSCAPE // MY CUP OF TEA

vol.19 究極のジョブ型、ハリウッド・アーティストの「正社員でも時給制」という働き方

「組織」を考えるメディア Organize

ep115 スタンプラリーとゲームのトロフィーから見る、人類の飽くなきコンプ欲

スクロール