おはようございます。心理学者のじんぺーです。心理学に触れる一日一語のお時間です。
この番組では心理学の専門用語を毎日一つずつ紹介しています。
今日の一語は、アクセント差別という言葉です。
私も初めて聞いたんですけど、英語の非ネイティブの人が話すスピーチというのがネイティブの人と比べてどうなのかということを調べた。
面白い研究になっています。方法論が新しくてすごく勉強になりました。
ぜひ聞いていってもらえれば嬉しいです。
先にお知らせをさせていただきたいと思うんですが、また今週も生配信をしたいと思っております。
明日の16時から生配信をしたいと思います。
近況を報告したりコメントを返したりしたいので、ぜひ集まっていただけると嬉しいです。よろしくお願いします。
今日の一語、アクセント差別とは何かというところなんですが、英語だとアクセンティズムという言葉があるみたいです。
本当に初めて聞きました。話し方や発音の違いを手がかりに、話者の能力、信頼性、好意度などを不当に低く評価したり、不利益な扱いをすることを指します。
今回の研究はスピーチ環境、特に公共でのスピーチ、本当にいろんな人が見るようなスピーチ環境において、エンゲージメントにどうつながるかということを調べた研究です。
お馴染み、お馴染みというかみんな大好き、テッドトークをまずは研究1で使ってまして、その後の追従する研究でもうちょっと実験的なことをしてます。
このテッドトークの研究がすごく面白くて、データ数的には5367本のテッドトークを使っています。
文字起こしの合計語数は927万5、1本の放送あたり大体1705ぐらいを使っているそうです。
テッドって視聴数もそうですし、あとはいいね数ですね。
この視聴数といいね数がエンゲージメントの指標になっています。
ここまでは結構わかるかなと思います。
一番今回見たい変数としてはアクセントの違い。
これが計算できるみたいですね。
PythonのMyProsodyという関数パッケージを使って発音スコアを推定することができるそうです。
これは誰でもできると思うので、自分のやつもやってほしいなと思うんですけど、現実を見るのが怖いので。
あれですが計算できると。
100がネイティブだとすると、そこからの100から差し引いてというスコア化の仕方をしているのか。
だから高いほど非母語的であると非ネイティブ的な発音であるというふうに点数ができるそうです。
さっき言った5000、何百本みたいなテッドの音声を使って数値化しているということです。
ここからもすごい面白くて、非ネイティブということはアクセント以外にもいろんな要素が違うわけですよね。
その要素をできるだけ潰していくという作業をします。
統計を使ういろんな学問で、本当に肝になっている部分かなと思います。
例えばトピックですね。
トピックを絞るので、文字起こししたものを自然言語処理で解析をするということです。
トピック数も計算するときに絞ることができて、この例えば10分の話の中で20トピックに絞るとすると、
前半では教育の話をしていて、途中では企業の話をしていて、
途中では自然言語の話をしていて、その後に自然言語の話をしているときに絞ることができるようになっています。
例えば10分の話の中で20トピックに絞るとすると、
前半では教育の話をしていて、途中では企業の話をして、みたいなトピックがわかるわけですよね。
そのトピックによってエンゲージメントが変わりそうじゃないですか。
だから、なかなか言い当てることは難しいんですけど、ネイティブほど面白いトピックを話しているみたいなことになったら、
それってトピックがよりエンゲージメントを説明しているはずなので、予測しているはずなので、その要因を潰すことをします。
なのでトピックをこのモデルに入れる計算の統計に入れる。
そうするとトピックじゃないネイティブのアクセントの部分だけ抽出できる。
これは一例ですね。他にもいろいろ面白いので、ここだけ話したかったんですけどね。
他には写真から人種を推定する。
5千何百本というデータ数になると、5千くらいだったら何とか人理系できなくもないんですけど、こういうサブ的な変数じゃないですか。
こういうサブ的な変数はAIを使ったりするととても便利ということで、しゃべっている人の写真から人種を特定する。
白人か非白人かみたいな、これぐらいだったら確かに精度がとても高そうなので使えると。
ネイティブはおそらく白人の方が相対的には多いはずじゃないですか。
だから白人の方が話しているからエンゲージメントが高いんだという理由を潰すのがこの人種の話。
これはすごく重要なところだと思いますし、あとは名前からジェンダーゲッサーというジェンダーを予測する。
これも多分AIだと思うんですけど、精度どれくらいかわかりませんが、性別もデータとして入れる。
これも潰す。
次の面白くて、これ全部面白いですよね。
知名度を今度潰します。
これどうするかというと、Google検索で結果件数、例えば筆割人平というふうに調べたら何件ヘッドするんでしょうか。
やってみるか。
余談がすごいけどいいや。
今って件数パッと出てくるんでしたっけ。
どこに書いてるんだろう。
ちょっとわかんないや。
Googleには出てきませんが、この件数がわかるじゃないですか。
この件数でそれをデータに入れる。
なのでネイティブほど知名度が高い人が多くてっていう理由を潰すということです。
こういうことをどんどんやっていくと、今回見たかったアクセントの非ネイティブ具合というのが、
エンゲージメントに与える影響だけをということは言えないんですよ。
無限にそういうのってあるので。
でもできるだけ考えつくことをできる方法で消していくということが、
本当にこれ研究者の腕の見せどころかなと思うので、
個人的にはめちゃくちゃワクワクしてこの論文読んでました。
あともっと簡単なところで言うと、動画の長さももちろん投税で入れるし、
公開した年数、古い方がいい年数多そうじゃないですか、みたいなのももちろん入れるし、
テッドに掲載された日数とかも入れるし、
こういうのを全部入れてどうなんだということを調べる。
結構もう既に満足しちゃってるんですけど、
結果を言うと、仮説通りですね。
やはりアクセントスコアが高い、非ネイティブ度が高いほど、
視聴数、いい年数ともに低い傾向があったそうです。
とても非ネイティブで英語を喋らないといけない、
たまにスピーチをしないといけない顔としては残念な結果なんですけども、
しょうがないなとも思う、しょうがないなとも思うという結果でした。
これがまず1個目で言いたかったこと。