-
-
スピーカー 2
レン ほうほうほう。
スピーカー 1
エマ なんで今回は、ちょっと統計学の話をしたい。
スピーカー 2
エマ それはあれですか、なんか、人の直感と実際の統計的に正しいとされてる値がちょっと違うけど、
エマ 人の直感っぽい間違った値を出して、これが統計ですみたいな、いうような、そういう悪用がされてるみたいな、そういう意味?
レン ああそうそう、それもあるし。知っておいて損はないのが統計学だと思ってるよ。
エマ まあね、うんうん。なんかどの分野にも応用できそう。
スピーカー 1
レン そう。
スピーカー 2
エマ 世の中データだもんね。
スピーカー 1
エマ 世の中データじゃないですか。データじゃないこともあるけど。だけど、統計リテラシーを上げようかい。ちょっとこれやってみたいなと。
スピーカー 2
レン はい。
スピーカー 1
エマ で、統計学の、まあちょっと有名な事例とか、ちょっとした成り立ちとかね、その辺をお話ししてみて、統計学がいかに重要かという話をしたいんですけど、
なんでこんな話をするのかというと、このエピソードが上がってる日から、第7回ジャパンポッドキャストアワードのリスナー投票が開催されております。
で、これ皆さんにお願いしたいんですよ。リスナー投票を。でも、ただお願いするのも面白くないので、これなぜ一票を投じて、自分がその統計に参加することが重要なのかということを、統計学を元におしゃべりしたいっていう。
スピーカー 2
レン 確かに。それ仕組みが分かるとね、一票重要なんだってなりますね。
スピーカー 1
エマ そう。
スピーカー 2
レン 口で言うよりもね。
スピーカー 1
エマ そう。口で言うよりも、お願いしますって言ってもさ、響かないかもしんないじゃん。
スピーカー 2
レン あなたの一票が大切ですとかよく言うけどさ、実際どれぐらいインパクトがあるのかって数値的には確かに分かってないかも。
スピーカー 1
エマ そうそうそう。
スピーカー 2
レン そういうのが説明されるときに。
スピーカー 1
エマ まあ、大体そんな感じ。いろんな事例から、やっぱり一票を投じて参加すること大事だなって思ってもらえるかっていう、そういう話にしたい。
スピーカー 2
レン そもそもさ、統計学っていつから現れたんだろうね。
スピーカー 1
エマ その話をします。じゃあもう早速その話からしますか。
スピーカー 2
レン うん。
スピーカー 1
レン 統計学って歴史意外と浅くって。
スピーカー 2
エマ うん。古そうに見えて新しそうな気もする。だって数をこねくり回すみたいなことはさ、昔からしてそうだけど。
スピーカー 1
レン まあね、気化学とかすごい昔からやってるからね。
スピーカー 2
エマ だからデータが大量に集まるみたいなのってさ、結構近代になってからじゃないかなっていう。
エマ とかなんかその集まったデータとか、あとは確率とかがちゃんと統計学に基づいて予測できたりとか、直感的に言ったら予測できなさそうじゃん。
スピーカー 1
レン 直感的に言ったら、ああそうそう。
スピーカー 2
エマ これが何パーセントでみたいなさ、そういうのって全部ランダムじゃんみたいな風に。統計学を知らなかったら思っちゃいそう。
スピーカー 1
エマ そうだと思う。てかね、人間の歴史上やっぱりこういろんなさ、データを集めてそれにルールがあるって思うのにめっちゃ時間かかってるんだよね。
スピーカー 2
レン そうだよね。ルールなさそうだもんね。ランダムに起きてそう。
スピーカー 1
エマ だから、そもそも統計学ってstatisticsですけど、英語で。それの語源って国家なんですよね。
スピーカー 2
レン 国家。
スピーカー 1
エマ ステイト。ステイトっていう単語が元々で、だから結構国家として、例えば人口とか税金どうやって集めるかとか、そういうのに最初使われたっていうのが統計学の始まりなんだけど、それまでは正直政治とかいろんなことやるのも全部占いっぽいことで、それ信じてやるとか。そういうのがメジャーだったわけよね。
エマ だから、そこがまず全然違う感覚で、それが変わって初めて統計学って言葉が使われたのが1700年代。最初はサイエンスオブステイトだったと。国家の科学みたいなことですね。
エマ それがないと、国家はもう盲目だと。目が見えないのと一緒だと。どうやって食べ物を配ったらいいかもわからんし、税金どうやって取ったらいいかもわかんないし、っていうのを何とかしようっていうので、データを取って国の方針を決めようっていうのが最初らしいんだよね。
スピーカー 2
エマ どうやって食べ物を配ったり、どうやって税金を集めるかっていうのはどういうこと?それがわからないっていうのは、例えば税金だったら何パーセントにしたらいいのかがわからないみたいな。
そうだね。そもそも国民の数もよくわかってなかったと。 エマ 国民の数そもそもわかってないんだ。
スピーカー 1
そう、だからその国民の数まずどれぐらいいるのかなっていうのを把握して、この家からはこれぐらい税金取ったらお金がこれぐらいになるなみたいな計算ができるようになるわけじゃん。
スピーカー 2
エマ そうだね。 それすらできてなかったらしいの。 エマ やばいね。1700年代までそれすらできてなかったの。
スピーカー 1
そうそうそうそう。1600年、1700年ぐらいまではね、できてなかったらしい。
スピーカー 2
でもそれだったらさ、そもそもどれぐらい予算必要かとかすらもわかんないよね。
エマ いや、そうなんだよ。だから全然わかってないんだけど。 適当じゃん、すべてが。
スピーカー 1
エマ そう、でもそこでちゃんと計算しようって試みてる人が1600年代に何人か出てくるんだけど、結構やったの面白くて、
エマ イングランドの人口を推計するために使った方法っていうのが、暖炉を見るっていうのがあって。暖炉勢っていうのをとってて、その暖炉勢で暖炉の数がわかって、そこに平均人数をかけたら全体の人数わかるよねっていうのを言い始めてる。
なるほどね。 エマ だからまあそれはデータを使って、全部の人口を出すってことをやってる。とかが結構始まりなの。
スピーカー 2
まあでも世帯あたりの平均人数はわかってたんだ。それは何個かピックアップして、代表的な世帯、この地域の世帯みたいなのをピックアップして、で、だいたい平均とって、じゃあこれは多分国全体に当てはまるだろうみたいな感じで計算してたのかな。
エマ うん、そうだと思う。 戸籍とかないんだ、じゃあ。 エマ 戸籍もね、ない。
スピーカー 1
エマ で、統計学の、これも初期の別の話なんだけど、人々の出生数と死亡数を調べるっていうことを初めて1662年ぐらいにやるんだけど、これもイギリスだね。
そこら辺から管理されていくわけか。 エマ そうそうそう。で、初めて調べてみると、出生数とか死亡数って年によってほとんど変わらないっていうのがわかって、本当はもっとそんな毎年同じぐらいになるとかも思われてなかったよ。
スピーカー 2
確かに、計ったことなかったらわかんないよね、多分ね。 エマ そうそうそう。で、実際調べてみたら、何年もそんなに変わんないから、すっごい集団で見たら法則性見出せるぞっていうのに気づいていく。
エマ 当たり前なんだけど、今の感覚だと。当時はそれがちょっと信じにくかったみたいね。 そんな毎年その時によるっしょみたいな感じだったから。で、そこから結構人々の人口なり、土地なり、そういうものをデータをちゃんと集めて、来年どうなるかなっていう予測をやり始めるって感じかな。
じゃあ、なんか統計学ってさ、学者が自然に始める学問っていうよりは、国家運営のために必要ってなって、その時に初めて研究された分野みたいな感じなんかな。
スピーカー 2
ああ、そんなにまだじゃあ有用性が認識されてない感じかな。
スピーカー 1
そう。この統計リテラシーみたいなやつはやっぱ必要なんですよ。
スピーカー 2
ほうほうほう。
スピーカー 1
得られる情報があって、まあ分析とかもできるんだけど、それをどうやって使うのかっていうのは、ちゃんと使う人が分かってないといけない。
スピーカー 2
うんうん。
スピーカー 1
意思決定する人とかが。
スピーカー 2
確かに。
スピーカー 1
うん、あるじゃん。てか、まあこれは現代も一緒じゃん。
スピーカー 2
そうだね、うんうんうん。
スピーカー 1
なんていうの、去年までのこの会社の売り上げがこれくらいで今伸びてきてて。
スピーカー 2
うん。
スピーカー 1
それを来年じゃあどうなるかとか考えるわけじゃん。
スピーカー 2
うん。
スピーカー 1
っていう時に、ちゃんと統計のことを分かってないとちゃんとした予測もできないし。
スピーカー 2
確かに確かに。
スピーカー 1
売り上げのデータを信じるのか、それともこう来客数のデータを信じるのかとかさ、いろんな需要あるわけじゃん。
スピーカー 2
そうだね、うんうんうん。
スピーカー 1
売り上げと来客数大体一緒か?まあでも客単価がどうなのかとかさ。
スピーカー 2
そうだね、とか、売り上げは大きくても利益は大きくないとかね、いろいろなデータの見方あるよね。
スピーカー 1
そう、それが重要だっていうのは僕らは分かってるわけですけど、当時は結構それが難しいって思われてたみたいなんでね。
スピーカー 2
まあね、だって統計学っていう概念自体も当時生まれたばっかりだったら、そんなね、その受け取る側の情報受け手側のリテラシーなんてそんな知ったことじゃないというかさ、うん、だよね。
スピーカー 1
ここからちょっと時代飛ぶんだけど、まあいろいろね、あるんだけど、統計リテラシーっていうのを初めてすごい重要だっていうのを認識した人がいて。
スピーカー 2
うん。
スピーカー 1
それがナイチンゲールっていう人。
スピーカー 2
おー、あの看護師さん?
スピーカー 1
そう、これ多分有名だと思うんですけど、これ1800年代ですね。これナイチンゲールさん何した人か知ってる?
スピーカー 2
看護師さん?
スピーカー 1
まあまあそういう、看護師さんって感じだよね。
スピーカー 2
看護師さんってなんかいろんな人を救った?
スピーカー 1
あーそうそうそう、いろんな人を救ってるんですけど、
スピーカー 2
何した人だっけ?
スピーカー 1
どうやって救ったのかっていうのが、これ統計が絡んでて実は。
スピーカー 2
ほうほうほう。
スピーカー 1
これナイチンゲールさん女性なんですけど、この時戦争してる時にこの軍の人とかはあんまりその病院の衛生環境とかを重視してなかったよ。
スピーカー 2
うん。
スピーカー 1
だからもうイケイケどんどんで進軍したりしていって、で怪我した人は病院に行くわけじゃん。
スピーカー 2
うん。
スピーカー 1
なんだけどまあ病院でも人が死んじゃったりするわけよ、病気とかでね。
スピーカー 2
うん。
スピーカー 1
でそういう状況だったんだけど、でナイチンゲールさんはあの戦争にその看護師として参加してるんだけど。
スピーカー 2
うん。
スピーカー 1
そこで銃で撃たれて命を落としている兵士よりも不衛生な病院で感染症にかかって亡くなっている兵士の方が多いってことに気づいた。
スピーカー 2
ほうほうほう。
スピーカー 1
だからさ結構一大事じゃん。
スピーカー 2
そうだね。
スピーカー 1
ナイチンゲールさんは亡くなった人の死因とかを集計して。
スピーカー 2
うんうん。
スピーカー 1
で当時女性が軍の方針に口を出すってことはまあ難しい時代なんだけど。
スピーカー 2
うんうん。
スピーカー 1
こういうデータがあると。
うん。
病院で亡くなっている人の数があまりにも多いと。
スピーカー 2
うん。
だからこの病院の衛生環境をまず何とかしないと人が死ぬのが止められないっていうのを軍にこう申言して。
スピーカー 1
うーん。
スピーカー 2
でちゃんとデータで示して、で軍もこれは問題だっていうのをちゃんと認識して。
スピーカー 1
うんうん。
スピーカー 2
でその衛生環境整えようってやったらしい。
へー。
スピーカー 1
だからこれは統計のデータをちゃんと使って上司を納得させたというか。
スピーカー 2
うんうん。
スピーカー 1
そういう良い例なんじゃないかなと思うね。
スピーカー 2
そうだよね。でナイチンゲールさんは別にだってその数学者とかいうわけでもないもんね。
普通にただのただのって言ってあれだけど素晴らしい人だけど、看護師さんでいろんな人を救ったっていうのは功績だっけ?
スピーカー 1
うん。いろんな人を救ってまあ直接救ったっていう部分よりは、だからそういう衛生環境をちゃんと整えましたとか。
スピーカー 2
うーん。
スピーカー 1
そっちの功績でかいよね。
スピーカー 2
そうなんだ。
うん。
それのきっかけがじゃあ統計学だったんだ。
スピーカー 1
そう。
スピーカー 2
うーん。
スピーカー 1
でそれを分かりやすく示すためのグラフも作ってる。
スピーカー 2
おー頭いいね。
スピーカー 1
そう統計グラフ。これまあちょっと音声だから見せれないけど極座面グラフっていうやつなんだけど、まあ予防ができる病気による死。まあコレラとかジフスとかそういうのが当時あったんだけど、と戦争で傷ついたことによる死っていうのをグラフの面積で表して。
だからこうパッて見たら、予防可能な疾患で死んでる人がめっちゃ多いっていうのが分かったから、その問題だっていうのがパッて分かったらしい。
スピーカー 2
へーそうなんだ。逆に今までそれをさあしてこなかったんだもんね。なんか今の感覚からするとびっくりだけどね。
スピーカー 1
うーんそうね。あ、てか軍の人っていうか国会議員とかね。あとビクトリア女王とかも。
スピーカー 2
へー。
スピーカー 1
数学的なまあこう理解があんまりない人たちを理解させるために頑張ってこう数字の列からそういう可視化するっていうのもやったみたいな。
スピーカー 2
うーん。
スピーカー 1
すごいよね。
スピーカー 2
イギリスの人?
スピーカー 1
イギリスの人。
スピーカー 2
うん。でもなんか有名だよね。
スピーカー 1
有名だね。教科書に出てくるっけ?
スピーカー 2
なんか小学校の時とかのさ、図書館に何か偉人伝みたいなのにあるイメージ。
スピーカー 1
あーそうだね。あるあるある。俺もそういうので知った気がする。
スピーカー 2
うん。でも教科書載せたっけ?
スピーカー 1
覚えてないなー。今教科書載ってるのかな?分かんないね。
まあでも衛生環境大事ですよね。だって当時42%ぐらいだったらしいよ。その病院での死亡率。
スピーカー 2
うーん。
スピーカー 1
傷の手当とかさ、そういうのをやりに来て。
スピーカー 2
うん。逆に死んじゃう。
スピーカー 1
42%って高すぎでしょ?
スピーカー 2
高すぎる。もうそんな病院行った方が死ぬやんみたいな感じやんな。
スピーカー 1
うんうん。しかもこれ病院が破損した下水道の上に立ってたらしくて、その病院で。
スピーカー 2
それはダメだな。
スピーカー 1
で、もう汚染された水が蔓延してて。
スピーカー 2
あー。
スピーカー 1
とか、そういう原因がもうあった。
スピーカー 2
うんうんうん。
スピーカー 1
だからもう国にお金出してもらって下水道を綺麗にしたりとか、通気口をちゃんと作ったりとか、そういうのをやって2%ぐらいまで下がったらしい。
スピーカー 2
すごい。
スピーカー 1
劇的に改善してる。
スピーカー 2
へー。それがナイチンゲールさんの功績か。
スピーカー 1
そう。1年でこれやからね。
スピーカー 2
すごい。それはもう国にとってさ、すごく利益をもたらしてるよね。
スピーカー 1
いやーそうだよ。だってね。
スピーカー 2
軍人さんの命。まあ一般人もそうかもしれないけどね。
スピーカー 1
うーん。何のための病院だって感じだもんね。
スピーカー 2
そうだね。
スピーカー 1
そこで別な感染症とかになっちゃってたらね。
スピーカー 2
うんうんうん。
スピーカー 1
まあっていうので、まあもう数千人の命は救ったんじゃないかっていう感じ。
スピーカー 2
うーん。
スピーカー 1
まあ、そういうわけじゃないね。もうちょっと根本的な勘違いが起きてる。
スピーカー 2
もう一回問いを教えて。
スピーカー 1
戦争に行って、帰ってきた飛行機を調べて、どこに傷がついてるかっていうのを調べてみると。
スピーカー 2
うんうんうん。
スピーカー 1
そしたら、傷がいっぱいついてるところがここだって分かるじゃん。
スピーカー 2
うんうん。
スピーカー 1
じゃあ、そこを強くしようってやろうとしたんだけど、これはミスなのよ。
スピーカー 2
それがなんでか?
スピーカー 1
そう。なんでそれはミスなんですかっていう。これ結構有名な問題なんじゃない?これ。
スピーカー 2
いや、分かんない。なんでだろう。そこを強くしたりとか、そこを守るような構造にしたら問題は解決できそうだけど、そうじゃない?
スピーカー 1
そうじゃない。もうちょっとこれ、傷がついてない部分は逆に言うと、コックピットとかエンジンとかは傷ついてないよ。
スピーカー 2
ああ、そういうところはそもそもなんか厳重に作ってる?
スピーカー 1
いや、違う。こういうところは、破損した飛行機は帰還してないの。
スピーカー 2
ああ、なるほどね。確かに確かに。
スピーカー 1
だから、そこに傷が入ってる飛行機は全然なくて。
スピーカー 2
ああ。
スピーカー 1
生存して帰ってきた飛行機だけを調べてるから、そこに傷がいっぱいあるんだけど、そもそも傷ついてないところは致命的だから、逆にそっちを守んなきゃいけないわけよ。
スピーカー 2
ああ、なるほどね。
スピーカー 1
っていう結論がこれから出せるっていうのがあるんだよね。だからこれってさ、統計とかデータが大事だなって思ってるからこそ、そのデータの見方を間違えると、間違った判断をやっぱしちゃうわけよね、人間は。
スピーカー 2
確かに確かに。
スピーカー 1
で、これに気づいたのは、これ数学者の人が、エイブラハムウォールドっていう人がいるんだけど、この人が最初は傷ついてるところを補強しましょうって言ったんだけど、反対して、逆だ、エンジンとコックピットを強くしないとダメだっていうのを言って、で、それはもう生存バイアスだと。
スピーカー 2
うんうんうん。
スピーカー 1
生きて帰ってきたやつだけが傷ついてるから、傷がないところを補強しないと、そこが傷ついた飛行機は帰ってきないからだっていうのを言って、そうだってなって、まあその走行強化は傷がないところにされたんだね。
スピーカー 2
うーん。
スピーカー 1
まあ、なるほどなーって感じだよね。
スピーカー 2
確かに確かに。
スピーカー 1
だから、パッと見じゃなくて、ちゃんと見えないところも考えて、データっていうものを見ないと判断を誤っちゃうよみたいな。
スピーカー 2
そうだね。
スピーカー 1
これもね、結構現代もよくある事例かなとは思う。
スピーカー 2
そうだね。とか、データの見せ方とかね、グラフ化の仕方とかでも、なんか全然違った印象を受けちゃうよね。
スピーカー 1
そうそうそう。
スピーカー 2
うんうんうん。
スピーカー 1
いや、俺これはね、なんかちょっとポッドキャストにもあるかなと思ってて。
スピーカー 2
はいはい。
スピーカー 1
やっぱさ、目に見える反応と目に見えない反応ってあるわけじゃん。
スピーカー 2
うんうん。
スピーカー 1
でさ、まあ目に見える反応ももちろんあって大事なんだけど、
スピーカー 2
うん。
スピーカー 1
目に見えない、反応がないのが大多数だったりするわけじゃん。
スピーカー 2
そうだね。
スピーカー 1
そういうのを、ちゃんとこっちが汲み取らないといけないんじゃないかとか。
スピーカー 2
うん。
スピーカー 1
なんか、コンテンツ作りも結構これって言えるんじゃないかなって気もするね。
スピーカー 2
確かに。サイレントリスナーさんがマジョリティだったりするから。
スピーカー 1
うんうん。僕らはそっちも大切にしなきゃいけないわけよ。
スピーカー 2
そうそうそうそう。
スピーカー 1
っていうのを忘れちゃいけないなっていう。
スピーカー 2
そうだね。
スピーカー 1
話ですよね、これ。
スピーカー 2
うんうんうん。
データをちゃんと集めて、解析して、かつ、正しく解析するっていうことの重要性はわかったんだけど、
スピーカー 1
うんうん。
スピーカー 2
それとは別に、統計学って学問があるわけじゃん。
スピーカー 1
うん、そうね。
スピーカー 2
学問的にどういうふうに発展していったのかっていうところも気になるの。
例えばさ、なんか今だったらさ、性域分布とかさ、優位さとかそういうのあるわけじゃん。
スピーカー 1
うんうん。
スピーカー 2
そういうのって、まあまたそのデータリテラシーとかとは違うというか、もっとその学問的にさ、こう理論が構築されていったわけじゃん。
スピーカー 1
うん、そうだね。
スピーカー 2
そうそう、そういうのって、あのどういうふうにさ、発展していったの?
スピーカー 1
そう、ここからは、さっきまでは結構もう国家の単位の話。
スピーカー 2
うんうん。
スピーカー 1
だったけど、学問として発展していくっていうのはまあ並行してて。
スピーカー 2
はいはい。
スピーカー 1
あの確率論ができたって話したじゃん。
スピーカー 2
そうだね。
スピーカー 1
エルマーさんとかね。
スピーカー 2
うんうん。
スピーカー 1
その後ぐらいに、今度誤差っていう概念がまず言われるようになってくる。
スピーカー 2
うんうん。
スピーカー 1
これ1700年代ぐらいの話なんだけど。
スピーカー 2
うん。
スピーカー 1
誤差ってめっちゃ重要で、要はデータ集めて、すっごい綺麗なデータって集まんないじゃないですか、基本。
スピーカー 2
集まんない、うん。
スピーカー 1
絶対これみたいな。
例えば、星とかでもさ、星もちょっと人間が観測した時のズレとか出たりするわけじゃん。
で、その星の場所のデータとかいっぱい取って、なんとなく法則とか見出したり。
スピーカー 2
そうね、うん。
スピーカー 1
まあそれもさ、データを集めてルールを見つけるっていう意味では統計学と同じだけど。
スピーカー 2
そうだね、うん。
スピーカー 1
その誤差っていうのは、これ今言った天文学者たちが最初に気づいてる。
スピーカー 2
うんうんうんうん。
スピーカー 1
やっぱり何回測ってもちょっとずつズレちゃうよねっていうのがあって、じゃあこの誤差をどれぐらい許容すんのっていう話になってくるわけよ。
スピーカー 2
ほうほうほう。
スピーカー 1
で、実際どれぐらい誤差出るのかっていうのをグラフにすると。
だから同じことを何回もやって、よくさ、釣り金型のデータ見たことない。
スピーカー 2
正規分布の。
正規分布の、そう。
スピーカー 1
あれって最初どれぐらい星見て誤差出るぞっていうのでやっていくと、だいたい真ん中の値っていうのが出てきて、そっから離れていくと極端にこの誤差減ってきますよっていう法則。
スピーカー 2
それはね、えっと、星のここの位置にあるべきっていう位置があって、そこからのこのズレの距離みたいなのを測って。
スピーカー 1
あ、そうそうそうそう。
スピーカー 2
で、何メートル離れてるのが何個あって、何メートル離れてるのが何個あってみたいな感じでこうプロットしていったら、こう離れてるほど少なくなるっていう正規分布が描けるってことだよね。
そういうこと。
スピーカー 1
で、これ今宇宙の話なんだけど、人間にも言えるぞっていうのはこの後出てきて、これ兵士の身体測定らしいんだけど最初。
例えばこれスコットランドの兵士、5700人ぐらいの脅威を測ったらしいんだよね。
したらそれをバーって並べてみると、平均これぐらい、真ん中の値これぐらいっていうのが出て、そっから何%ずれるみたいなものが釣り金型になってきれいに。
ってことはこれも正規分布だってなる。だからそういうデータに関してはいろんなものが正規分布になってるんじゃないかっていうのが結構始まりだよね。
で、今言ったやつも結局まだいろんなものの誤差とかを調べると同じような傾向あるぞっていうのがだいぶベーシックな話じゃん。
スピーカー 2
で、そこから近代的なもっと統計学に進んでいくっていうきっかけになった人がカールピアソンという人がいるんだけど、この人はダーウィンの進化論に数学的な裏付けを与えたかった人らしいんだよね。人の遺伝とか。
じゃあ元々の目的はそっちにあったんだ。統計学を極めようとかいうよりは生物学のダーウィンの理論を裏付けたかった。
スピーカー 1
うんうん、そう。で、相関という概念を作った人がこの人らしくて。
スピーカー 2
え、あれ?なんかさ、あの、散布図みたいなのがあってさ、で、ちゃんと性の相関がありますとか、負の相関がありますとか、そういう概念を作った人。
スピーカー 1
そうそうそうそう。親の身長と子供の身長のデータがあるとするじゃん。
それを身長ごとに整理してみると、親の身長が高い人の方が、それは遺伝的に子供に受け継がれてて、子供の身長も高い傾向がありますってなったら、これは性の相関があるってことじゃん。
スピーカー 2
そうだね。じゃあなんか横軸が親の身長で、縦軸が子供の身長みたいな感じにしたら、右上に伸びていくような線が平均したら欠けるみたいな感じだよね。
スピーカー 1
そうそうそう。っていうのを、これ記述できるようになっていくわけね。これも今でもそういうの使われてるけど。
スピーカー 2
そうね。
スピーカー 1
だからデータを数学で評価するっていう、これ現代的なアプローチが出てきてて。
スピーカー 2
それはどれぐらいの時期?
スピーカー 1
これ1800年代の人かな、この人は。
スピーカー 2
そっか、じゃあ少しずつなんか統計学も進化していってるっていう感じなんだね。
スピーカー 1
これ今、超ざっくり言ってるけどね。本当に重要だったポイントだけ、全部で言うと大変な料理になるから、これ。
スピーカー 2
そりゃそうやな。
スピーカー 1
で、今言ったようなのって、データの数がやっぱ重要になってくるんだよね。
だって、例えば点が4つぐらいしかなかったらさ、右肩上がりなのか右肩下がりなのかわからないとこなるじゃん。
スピーカー 2
そうだね。
スピーカー 1
だから、とにかく大量のデータを集めて、それをもって解釈するのが統計学だっていう風になってくる。
数市場主義みたいな感じになって、でも、これはこれで問題がある。
スピーカー 1
そうそうそうそう。だから、例えば温度を上げて、その時1回やったら6%になったんだけど、もしかしたらもうちょっといっぱいやったら、本当は5%の方にもっと寄ってて、たまたま6%でしたっていうことかもしれないじゃん。
だから、なるべく少ない何回かやって、6%でちゃんと作れてますねって判断する方法とか、それは統計学でできるっていう話になるね。
スピーカー 2
これがT検定っていうやつで、なるべく少ない群数で判断するということとか、結構高度なことができるようになってくる。
ただただゴスターを調べるだけじゃなくて、話がややこしくなってきたんで、だから少ないサンプルでも推測ができるよっていうツールができたよっていうのが要するに言いたい。
でも、やっぱりそういうビール会社が実用的に必要だったからこそ発明した方法なんだね。
数学者が考えたとかいうよりも、数学者が考えてるのかもしれないけど、その先に実用したいっていう気持ちがあったからこそ、ビール会社の人たちが作ったんだね。
そうだね。だからやること結構高度だよね、これも。
スピーカー 1
高度だよね。
で、今結構ばらつきがあるグループと違うグループを比較してるっていうのをやってるんだけど、
今度もっとシンプルな話で、紅茶を飲む貴婦人っていう実験があって、これ何かっていうと、ある貴婦人が紅茶を先に入れたミルクティーとミルクを先に入れたミルクティー、あの味の違いがわかるって言ってて。
スピーカー 2
ほうほう、イギリス?それ。
これはねイギリスの人だと思う。
スピーカー 1
イギリスっぽいな、なんか。
スピーカー 2
めっちゃイギリスっぽいよね。
発言するんだけどさ、イギリス人の友達とかがよく言ってんのが、アフタヌーンティーあるじゃん。アフタヌーンティーってスコーンの上になんかクリームとジャムを乗っけるんよ。
はいはい。
ジャムが先派か、クリームが先派かで、なんか大激論が起きたりとか。
スピーカー 1
起きてそうだろ、それ。
スピーカー 2
なんだっけ、他にも何派か何派かみたいなので、あの食べ物においてね、なんかめちゃくちゃ真剣に語るのよ。
なんかそれを今ちょっと思い出して、これなんかイギリス人っぽいなって思った。
スピーカー 1
確かにね、そうかも。これも多分イギリスの話かな。ロナルドフィッシャーさん。
いや普通に考えたら今言ったやつさ、紅茶先に入れたやつとミルク先に入れたやつなんてさ、混ざったら一緒じゃんって思うじゃん。
スピーカー 2
分かんない、でも違うんだろうね。
スピーカー 1
で、それを貴婦人はその味の違いが分かるって言ってる。
スピーカー 2
じゃあそれは本当に味の違い分かんのっていうのを実験しようっていう。
なんか意地悪な実験だね。検証実験。
スピーカー 1
意地悪かもしれない。
でもこれ結構だから重要で、要はさ、何杯か飲んでもらって、ちゃんと紅茶先に入れたやつ、ミルク先に入れたやつっていうのをその夫人が判断できたらさ、お、本当だってなるじゃん。
だから8杯用意して、4杯ミルク先、4杯紅茶先でランダムに飲んでもらって、この夫人は全正解したと。
で、ここで重要なのは、8杯当たったのはまぐれなのか、それとも本当に実力があって当てたのかっていうのはどうやったら判断できるんだっていう話。
これ計算できるよね、確率だから。8杯全て正解する確率は、だいたい1.4%くらいしかないと。かなり低いじゃん。
これがちゃんとパーセンテージを出して、それが滅多に起きないかどうか。
で、この滅多に起きないことをちゃんとできてるから、ちゃんと味を判断できてるっていうこの考え方。
これが有意差とかを考える原点らしいよ。
スピーカー 2
なるほどね。
スピーカー 1
偶然の確率が何パーセント以下だったら意味がある差だねっていう。
スピーカー 2
それがピーチ?
スピーカー 1
そうそう、これがピーチっていうやつで、よくあるのはピーチが0.05より小さい。
これは偶然それが起きたっていう確率が5パーセント以下ですよ。だから意味がある差なんですっていう話。
スピーカー 1
なるほどね。
どの論文は言い過ぎたな。
よく生物系の実験で何回かやった時にピーチがこれくらいだったんで、これは偶然じゃありません。
ちゃんと差があるんですっていう時に使うやつですね。
この岐阜人のやつは例として分かりやすく出してるだけかもしれないけど。
スピーカー 2
でも分かりやすいね。
スピーカー 1
分かりやすいですよね。
だからこの紅茶の場合だと8杯飲んで判断してもらったら1.4パーぐらいなので十分な数やってますよってことね。
スピーカー 2
これは有意差があるって言えるってことですね。
スピーカー 1
本当はどうなんだろうね、この紅茶。判断できるのかな?普通に気になっちゃうけど。
スピーカー 2
でもすごくない?相当のだって1.4パーセントだったらさ、かなりの確率で当ててるってことだよね。
スピーカー 1
すごいよね。
ガチだったらすごいよ。
ここまででもうだいたいベースは整ってかね。正規分布があってT検定があってP値による検定もあって。
これ1900年代で結構統計学のベースはこれできたよねって感じ。
スピーカー 2
でも1900年代だとね、やっぱり結構新しいね。
スピーカー 1
全然そうだね。まだまだ歴史浅いですね。
スピーカー 2
でもさ、それがなかったらさ、他の学問が進まないみたいなところもあるもんね。
だって医学、薬とかってさ、ちゃんと有意差があるのかとかさ、
あとはさっき君が言った生物の研究で有意差があるかないかみたいになってさ、だいたい使われるじゃん。
スピーカー 1
そうだね。しかもこのP値5パー以下ってやつも、それにこだわる必要がどこまであるのかとかいう問題もあったりするらしい。
スピーカー 2
まあでもとりあえず、パーセントが小さければ小さいほど信用できますみたいなさ、その指標にはなってるじゃん。
そう、監修みたいな感じだよね。メジャーな考え方としては、これぐらいだったら差あるって言っていいよみたいな。
スピーカー 1
それ科学においては大事だな。
スピーカー 2
でもこの考え方自体がさ、そんなに新しいものだったらさ、っていうのがちょっとびっくりだし、
かつ他の分野にもすごく影響を与える重要な学問だよね。
スピーカー 1
本当にそう。
スピーカー 2
発見されてよかったっていう感じだよね。
よかったよかった。
スピーカー 1
まあ一応これはさ、本当はもっと大量にできたらいいんだけど、なるべく少ない数で判断したいよねっていうのがこれまでの統計学、今言ってた話じゃん。
P値とかP値とかも。
もっと最近の時代って、実はこのP値の考え方と対立してたベイズ統計ってまた別のやつがあるんだけど、これ複雑なんで概念だけ言うと、新しいデータが出るたびにその確率をどんどんどんどんアップデートするみたいな、
要はめちゃくちゃ計算してその事象が起きるかどうかっていうのをひたすら計算するっていう感じの統計学があるよね。
本当にざっくりしか言ってないけど。
スピーカー 2
それはあれかな、まずN10でやった時にさ、5%って出るかもしんないけど、でもN100ってなったら5.2とかになるかもしんないじゃん。
そんな感じでサンプル数が増えれば増えるほど正確な値が出てくるから、永遠に繰り返すみたいなこと?
最終的なのはないかもしんないけど、サンプルが増えるに従って計算を更新していくみたいな、そういうイメージ?
スピーカー 1
そうだね。その方法あったはいいんだけど、計算が複雑すぎるんで。1900年代あったのかな?あったんだけどあんまり使われてなくて、
だけどコンピューターが開発されたらめっちゃ計算できるようになるわけじゃん。それでベース統計ってやつが使われるようになって、
それより膨大な計算をして、その中からパターンを見出して推測するとか、そういう統計学ができるようになってくる。1980年代以降できるようになっていって、
スピーカー 1
もう今に繋がってるわけですよね。今は膨大なデータを読んで、そこから確率的なパターンを見つけ出すっていうのは、こういう統計学の方法使われてて、
で、それがAIになっていくわけよね。
スピーカー 2
AIの説明に似てるなって思ったけど、やっぱりAIでも統計学使われてるんだ。
スピーカー 1
そうそうそう。文章生成だったら、昔々ってきたら、次におじいさんってくる確率と、おばあさんは一緒か。
スピーカー 2
人間っていうワードが出てくるんだったら、おじいさんって出てくる確率が高い。それも言ったら統計学だよ。
スピーカー 1
今までのそういう文章から統計して解析すると、次おじいさんってくる可能性高いなってなってるから、おじいさんが出てくる。
スピーカー 2
なるほどね。でもさ、そのサンプルをどっかで止めちゃって、このサンプルからしか文章を作れませんってなったらさ、
最新の情報とか反映されなくなっちゃうから、それをずっと更新していってるみたいな、そういう感じかな。
スピーカー 1
まあ今は。
スピーカー 2
どんどん更新していって、それでどんどんどんどん、より精密になっていく。
スピーカー 1
そうじゃないかな。だからそういうデータいっぱい使うやつはそれを使って、あんまり集まんない、それこそさっき言った論文とか、データ少ないやつは今までのP値なりP検定使いましょうっていうのは今も一緒だよね。
今でも使われてることなんで、だからそういうデータの量によって使い分けてるっていうのが今の感じですかね。
スピーカー 2
面白い。
スピーカー 1
面白いね、これ。
スピーカー 2
統計学ってさ、もう行くとこまで行き来った感じなのかな。それとも、例えばさ、物理とかだったらさ、まだまだ分かんないことがいっぱいあってさ、で、いろんな学者さんたちがいろいろ調べてるわけじゃない。
統計学ってさ、そういうのあんのかな。
スピーカー 1
いや、どうなんだろうね。これに関しては俺分かんないけど、統計学の超専門家じゃないから。
スピーカー 2
統計学者とかいるの?
スピーカー 1
いや、もちろんいると思う。
スピーカー 2
じゃあ、なんか新しい方法を作り出そうとしてたりするのかな、やっぱり。
スピーカー 1
どうなんだろう、分かんないね。今でもやられてるのかね。なんかさ、やっぱ使う人が圧倒的に多いからさ、こういうの。
スピーカー 2
そうだよね。
スピーカー 1
そのベースの部分を研究してる人の話は、ちょっとあんま分かんない。でも、いるんじゃないかなって思うけどな。
スピーカー 2
そうだよね。まあ、数学みたいなもんだよね。だから、数学考えてる人の中で、統計を考えてる人もいるかもしんないよね。
スピーカー 1
うんうん。
スピーカー 2
なんだろう、なんか物理とか他の学問はさ、結構未知の問題があって、それを解決したいみたいな感じだけどさ、統計ってさ、手法をどんどん開発していくみたいな感じだからさ、なんかゴールがある感じじゃないもんね、なんか。
スピーカー 1
ゴールってなんだろう。
スピーカー 2
分かんない。
スピーカー 1
何がゴールなんだろうな。
スピーカー 2
新しい手法を発見できたら、それを使いましょうみたいなイメージかな。そんなイメージを持ってる。
スピーカー 1
でも今でも困ってることってなんかあるのかな。要はデータはめっちゃあるけど扱えないみたいな、予測ができないとかさ。
その中から、そのデータが複雑すぎてパターン見出せないから、そのパターンを見つける新しい方法を考えますとか。そういうのはありそうだなと思うけどね。
スピーカー 2
ありそうだね。それがどの分野になるのかっていうのはまた、分かんないけどね。本当にただのテクノロジーの開発のレベルなのか、それともこの数学的な統計学の部分まで遡った理論作りが必要なのか、よく分からないけどさ。
どちらにせよ、そういう悩みがあって、それを解決しようとしている人はいそうだよね。
スピーカー 1
そうだね。それはいると思う。しかも何が大事って、やっぱりそれをやるにしても、ちゃんとしたデータが大事というか、それがないとパターンを見出すとかも難しくなっちゃうし、っていうことかなと思って。
スピーカー 1
統計、解析方法も大事だし、そのデータも大事だし、だからその扱い方を悪用する人も出てくるから、そういうのに騙されないようにしないといけないし。
スピーカー 2
そうだね。データリテラシーもつけなきゃいけないし。
スピーカー 1
そう。っていうことかなと思って。
そうですね。
で、ここまでまとめると、最初の方の話、そもそも統計っていうのは、最初国がやり始めて、そこから科学者とかがいろいろ絡んで、データをまず集めるっていうことが大事だと。
スピーカー 2
そうだね。今からしたら当たり前だけど、そこから始まったんだって感じだね。
スピーカー 1
ちゃんと集めること大事ですよねっていうのと、あとはナイチンゲールさんみたいに、集めたデータをちゃんと使いましょうっていう。
使うことも大事だよねっていう話。
で、そこから途中ね、正規分布の話とかちょっと難しかったかもしれないけど、そういうデータの扱い方とか、そういうものがベースになって、今のAIとかね。
あとはいろんな判断とか人がしているものに、統計学っていうのはつかれてて、それを知っておくのは結構大事なんじゃないかなっていう。
スピーカー 2
そうだね。
面白かったよね。学問の発達の仕方としてさ、結構最近にそもそも出来上がって。
でもそのおかげで、今の研究で優位さの話ができたりとか、あとはAIとかにつながってるってなると、すごく重要だなっていうふうに思いました。
スピーカー 1
そうだね。意味があるさかどうかとかってね、普段そんな考えないかもしれないけど。
スピーカー 2
原始人だったら考えないわ。
原始人はなんだろう、500年代くらいの人か1000年くらいの人しか考えなさそうだなみたいな。
スピーカー 1
逆に言うと、じゃあこれすごい有効な方法ですよってやつも、ちゃんと本当に有効なのっていうさ、自分の中で疑いフィルターとかも持てるわけじゃん。
スピーカー 2
確かに確かに。なんかエッセイ情報みたいなのも結構あふれてるもんね。
スピーカー 1
よく見たらこれ誤差じゃんみたいなさ、あると思うよね結構。
スピーカー 2
うんうんうんうん。
スピーカー 1
とかあの、すっごい誤差をごまかしてるグラフとかね。
スピーカー 2
あー、とかなんかお客様満足度98%とかいうのがさ、ほとんど桜みたいな。
スピーカー 1
桜とかあまりに母数が少ないとか。
スピーカー 2
そうそうそうそう。
スピーカー 1
なんかすごい偏った実は募集団になっててとか、多分そのデータの取り方とかでも変わっちゃうから結果。
そうだよね。
そういうのは大事だよねっていうのを改めて言えるかなって思いましたね。
スピーカー 2
そうですね。はい。
スピーカー 1
あとやっぱね、無意味なデータはないなっていうのも言えると思うよ。
ほうほう。
誤差は誤差っていうデータとして大事じゃん。
たまにさ、なんか実験してもさ、うまくいかなかったやつをさ、
例えば無かったことにするとか、そういうのやっちゃうとやっぱミスリードに繋がっちゃうわけで、
誤差は誤差としてちゃんと記録するとかもすごい大事だと思うよ。
うん。
だから無駄なデータはないんじゃないかなっていう。
スピーカー 2
確かにね。
スピーカー 1
なんかこれ投票とかも一緒なんよ。
スピーカー 2
うん。
スピーカー 1
投票もさ、結局さ、一票を投じることでさ、その投じたっていうのはさ、データとしては残るわけだし、
うんうん。
それが自分は誤差かなって思ってても意外とそれがみんな思ってるかもしれないじゃん。
スピーカー 2
そうだね。
スピーカー 1
誤差かなみたいな。
そうしたらそれが結構大きいパワーになったりとか全然あると思うよね。
スピーカー 2
そうね。
スピーカー 1
っていうことがね、結構言いたい。
めっちゃ無理やりかなこれ。
実際そうじゃない?
スピーカー 2
まあ実際だってね、一人一人の力はそれ一票にしかならないけど、
うん。
それを積み上げてからこその受賞とかがあるわけだもんね。
スピーカー 1
そうそうそう。
言ったらだってさ、数だからもう投票もさ、
うん。
まあ統計っちゃ統計だ。
スピーカー 2
そうね。
スピーカー 1
そして何もアクションをしなかったら存在しないみたいになっちゃうわけじゃん。
スピーカー 2
そうだね。
スピーカー 1
僕らも頑張らないと、存在しないことにはならないんだけど、
うん。
せっかくなら、いるよってなりたいじゃん。
スピーカー 2
なりたい。
前のどっかのエピソードでも多分言ったと思うけど、
うん。
去年よりも今年の方が力入っているね、私たち。
スピーカー 1
いやーそうそうそう。
だからこれは今、皆さんの一票がいかに大事かということを言いたい。
スピーカー 2
うんうんうん。
しかもさ、やっぱりさ、私たちってまだまださ、そんなにリスナー数とかいないじゃん。
いやーそうだよ。
スピーカー 1
なのに。
芸能人とかのさ、
そうそう。
すごいいっぱい聞かれてるやつに比べたらさ、
うん。
そりゃ少ないよ。
スピーカー 2
そうそうそうそう。
だから本当にリスナー数が多い番組の人たちが、
うん。
投票してくださいっていう風に言っちゃったら、絶対負けるじゃん。
だって私たちよりも、
うんうん。
リスナー数が多い番組なんてめっちゃあるから。
全然ある。
だからこそ、サイエントークのリスナーさんは一人一人の力が重要というか、
みんなが投票してくれたら、私たちもノミネートとかされる可能性はあるけど、
うんうん。
そうじゃなかったら、マジで結構やばい。
スピーカー 1
いやー入んないと思うよ。
スピーカー 2
去年とかもさ、マジでギリギリだったんじゃないかな。
スピーカー 1
いや多分めっちゃね、ギリだったと思う。本当に。
だから奇跡だと思ってる。
スピーカー 2
そこのデータね、開示してくれないかないからよくわかんないんだけど。
スピーカー 1
これ言ったらさ、データ開示してくれみたいな感じになっちゃうかもしれないけど、
いやいやいや。
そんなことはなくって。
で、正直去年のどれぐらいだったかとかも全くわからないですよね。
うんうんうん。
統計データは開示されてないんで。
スピーカー 2
そう。でも他の番組見たらなんかめっちゃ大物番組ばっかりだったからさ。
スピーカー 1
うん、いや本当にそうだった。
スピーカー 2
だからギリギリ食い込んだっていう感じだと思うけど、
今年も多分さ、行くか行かないかかなっていう感じがするから。
スピーカー 1
だから去年もさ、ある意味さ、直感を凌駕してる感じがするんよ。
多分さ、純粋なリスナー数だけで言ったら僕たち入ってないかもしれないけど、
その中の熱狂によってというか、投票してくれたおかげで、
そのリスナー数に対する投票してくれた率が高かったわけじゃん。
多分。
スピーカー 2
そうですね。で、それをまたお願いしたいというか、
前回投票しなかった人とか、
でも多分そういう人が投票してくれたら確率がすごい上がる。
うまく言えてるかな、これ。
スピーカー 1
わかんない。私何言ってるのかわかんないかも。
スピーカー 2
伝わるといいけど、
スピーカー 1
あと、ただ単に票欲しいっていうことでもないっていうのもちゃんと言っておきたい、俺は。
あーそうだね。
その、とりあえず入りたいっていうわけじゃなくて、
入ることでちゃんと意味を作りたいというか、
前回のやつもポッドキャストアワードのやつに入ったおかげで、
結構今年いろいろ広がったところもあると思うよ。
まあなんかイベント開催できたりとか、
投票書籍とコラボしたりとか。