2024-03-06 34:29

音声ファイル情報

gdoax5Rxn2Rl6oQxjJ2WWktuwdxpL7yEzsdV6NvY_chapters.mp3

Duration:	34:29
File Size:	41378464 bytes
Codec:	mp3
Channels:	2 (stereo)
Sample Rate:	44100 Hz
Bit Rate:	160000 bps
Integrated Loudness:	-22.64 LUFS
True Peak:	-0.96 dB
Loudness Range:	8.90 LU

ep70 「表情」と「声」が食い違ったときに覚える違和感の正体は？

2 Comments

Nobuhiro Seki

Host

コミュニケーションする上で「表情」や「声」が果たす役割は多い。また文化の差により、同じ表現でも、受け止め方がまったく異なってしまうことも

ゲーム中のキャラクターの顔のキャプチャと声のあて方のパターン
実在の俳優をキャプチャし本人が声をあてているのに、声が浮いていると思うことがあるのはなぜか、を考察してみる
CGで作られた顔の動きの制限をカバーしてストーリーに引き込む声の演技
話す言葉に乗ってくる感情と情景
ビデオ会議で気になるノイズは背景の環境音か人の声か
NTTの大規模言語モデル「tsuzumi」では、AIが人の声色や声に乗っている感情を理解するらしい
声に乗るものを理解するには、言語や地域で異なる文化的なコンテキストを高度に理解する必要がある
満足度調査やNPSで、日本人は低い値が出がち
アメリカ人上司は注意したのに、面談したフランス人の部下は褒められたと喜んだのはなぜか
「笑い」は共通の文化的コンテキストがないとなかなか難しい
同じ英語圏でもイギリスの笑いのポイントはアメリカ人には伝わらない
HoloLensの開発者の指摘：3D空間での設計では音を大事にするべき
片耳が聞こえない時、行方不明のガジェットを音で探す時に位置が分からなかった

エピソード内で取り上げた情報へのリンク：

サマリー

最近プレイしたゲームの新作では、リアルな3Dモデルと声優の演技のズレを感じています。人間の脳は背景音や声の乗っかり方などを通じて微妙な表情の違いを感じ取る能力を持っています。この違和感や感じ取りの能力は、人間の情報処理とAIの聴覚や視覚の能力の差異に関連しています。Tsuzumiという、感情と聴覚を理解するAIの場合、声のトーンに対応して返答することができます。聴覚があるAIは、感情や声に載っている情報を理解して適切な返答をすることができます。日本人とアメリカ人のコミュニケーションにおける違和感や笑いの取り方について考察されています。テクノロジーの進化により、音のフィードバックが人間の感覚に与える影響について話されています。立体音響や奥行き感がもたらすリアルな体験が、デジタル体験とは異なる魅力を持つことが強調されています。

ゲームでのリアルな3Dモデルと俳優の演技のズレ