老害、老害発見、老害発見。
ということで、今回は、勉強の仕方を教えてくるやつが老害なのかどうか、アップデートされてないデータサイエンティスト浮き彫り大作戦。
まさかな、そこに落ち着くとは思わなかった。当初の予定とは全然違うっていうね。
今回は、僕とかたっちゃんが勉強したときは、データ分析の勉強材料といえば、ボストンハウジングデータと呼ばれる、ボストンの不動産データだったんだけど、もうそんなん古いぞと、今の時代に即してないぞというところで、今は違う不動産データのデータが使われてるっていうところで、
今まだボストンって言ってるやつ、老害なんじゃないの?みんなが教えてもらってる先生、情報アップデートできてないんじゃないの?そういう話していこうと思ってます。
不動産のデータはどこを見るのが重要なのかとか、分析のテクニックとかの話もちらほらしつつ、最新のデータ分析、勉強法、第一歩、そんなところをお話ししていければと思っております。
ぜひ最後までお付き合いください。
隣のデータ分析屋さん。この番組は、隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁ、をかなえるポッドキャストチャンネルです。
データアナリストのりょっちです。
データサイエンディストのたっちゃんです。
今回は、ボストンの土地の価格をデータ分析してみようのコーナーでございます。
ピンときてる人はいるんですよ。あ、ボストンの家のデータね、はいはいって。
そこはデータサイエンスリテラシーの問題だね。
リテラシーの問題ですね。
今回なんか難しい、小難しいタイトルつけたけど、あれですね、データ分析、データサイエンス勉強するときに一番最初に触る確率MAXのデータ、これが不動産データ、その名もボストンハウジングデータでございます。
触ったことある?そもそも。
ありますあります。
これもね、やらされた。銃課金したコースで。
あ、そこでやらされたんですね。
やらされた。
なるほどなと思って楽しくやりました。家の価格予測するAIモデル作るところ。
なんか、おーって感じ。
ねえ、そうっすよね。えーって思いながらやりますよね。
感動はしないよね。
感動はしないっすね。
あ、でも感動はしないけど、これもし自分で作れたら、なんかまあ金儲けできんじゃねみたいな匂いはさせてくれますよね。
それ思っためっちゃ。
そう、だって家の価格をAIが予測してくれるっていうモデルを作るのがゴールの話だから、それを自分で作れるんだったら、もうなんか不動産で鑑定士にでもなれるんじゃねみたいな感じ。
そう。
思うよね。
思わせてくれる話。
そう、だから不動産屋さんがこれ覚えただけでちょっとすごいんじゃないとは思う。
そうそうそうそう。
なんか多分自分で不動産の仕事とかやってる人とかは、めっちゃこれいいと思うね。
なんかデータサイエンスのいい例だとは思う。
もうデータサイエンティストリテラシーあるなら知ってるって話したけど、これタイタニックのデータと似共なんですよね。
タイタニックデータをやるか、ボストンハウジング、住宅価格のデータをやるかっていう似共だと思ってて。
えー。
で、まあ前にタイタニックデータやったから、今日はボストンハウジングだよねっていうところでの、これ話そうと思ってたんですけど違うんですか?
いや、あのね、俺タイタニックの時マジでタイタニックのあのデータ分析知らなかった。
あ、そうなんだ。
そう。
かぐる童貞だから。かぐる署長かもしれない。
いや、いい、そこは童貞でいい。
あ、そうなんだ。
そう。だからあの時は普通にただの映画好きとして出てた。
まあそうだろうな、確かに。
あのなんか、知らない体で喋ってたとかではなくて、そもそもそのデータ分析はやったことなかった。
えー。
でもボストンハウジングはあるんですね。
ある、そのエピソード6か7ぐらいで喋ったあの、俺AI勉強10課金勢だから。
はいはいはい。
10課金コースの中でやったわ。
えー。
あ、じゃあたまたま出会ったってだけで、もしかしたら出会ってなかったかもしれないって話だ。
そうだね。
それはね、出会ってなかった可能性もあるし、今思うと10課金したのに、あのデータ触ってたんだとも思ってる。
あんなにお金かけたのにね。
そう。
今になっちゃもう、そう無料で触れるデータだからね。
ググればわかるやんって。
なんでそのタイタニックと2強なのかって話ですけど、
うん。
今回のその住宅価格を予測するっていう話は、まあ大袈裟に言ったらその、
0円の自己物件から1億円のもう豪邸マンションまでを予測するっていう、いわゆる金額を予測する話なんですよね。
うんうん。
これちょっと難しい言葉で言うと、回帰タスクって言うんすけど、
回帰タスク。
そう、回帰っていう、回るに帰るで回帰ね。
あれなんで回帰って言うんだろうね。
って聞かれると思ったんで調べてきたんだけど。
やらせっぽー。
マジで言ってなかったのに。
でもこれ僕も初めて知ったんですけど、
なんか語源はフランシスゴルドンっていう統計学の創始者って言われる人が言い始めた話で、
適当なの言ってるでしょ、今。
いや、ちゃんと調べたんだから。
フランシスゴルドン。
そう、親の身長が極端に高いとか低いとか、
ってなった時に、その子供って別に極端に身長が高いとか低いじゃなくて、
おそらくその子供の身長は、一般的な子供の平均値に近い値になるよねっていうことを言っていて、
これが平均値に帰るっていう意味で、回帰っていう言葉を使ったんですね、このゴルドンが。
そこから統計学では、回帰っていう言葉を使うようになった。
そうなんだ、謙虚な人でいいね。
だってさ、物理学者とかさ、自分の名前法則につけてさ、しかも何人かで見つけたら何人かの名前並べちゃってさ、
ボイル、シャルルとか、その点その一般名詞に落ち着かせるっていう謙虚さ。
はいはい。
ゴルドン万歳。
だからもしかしたらゴルドンタスクとかになってたかもしれないんだ。
だめよ、そんな本当に。
エゴ、エゴ。
だめだね、統計学者はやっぱりエゴを出さない。
そうそう。
だから回帰タスクって言うんだけど、一方でタイタニックは、あれ沈没したときにその乗客が生きるか死ぬかの01を予測するっていうことで、
0か1かの分類タスクって言われるんですけど。
あー、そっか、そういう違いがあるのか。
そう。やりたいことの違いが大きく2個あって、一般的にAIモデルってこの2つに落ち着くんですよ。
回帰モデルか分類モデル。
今回の住宅価格は回帰の話だから、じゃあ回帰タスク、回帰モデルを作るチュートリアルは住宅価格でしょうと。
あー、なるほどね。
一番セクシーな仕事目指してるやつが。
そうだな。
確かに。
そう言われるとどんどんダサい題材な気がしてきたな。
もう1個が致命的で、特徴領の中にその地域の黒人の割合っていうデータが入ってるんですね。
へえ。
何人そこの地域に黒人がいるかっていう情報。
ここがかなり差別的な意図があるんじゃないかっていう話に広がって。
なるほどね。
アメリカでは厳しいよ。
ポリコレ、ポリコレ。
ポリコレって何?
なんか多様性の時代になってきた中で、
例えば、物語のヒロインに白人ばっかり使ってるやんみたいな話とか、
黒人全然出てこないじゃんみたいなところとかっていう偏りを、
もう誰が文句も言わないように鳴らしてキャスティングしましょうみたいな。
なるほどね。
作品でよくあるから、
ポリコレが行き過ぎたアニメーション作品とか見ると、
もうなんか訳わかんないくらいの人種のバリエーションが入ってたりとか。
どっちかっていうとコレクションしてもらう方なんだけどね。
アジア人も。
そうだね。
入れてもらう側ですね。
そうそうそうそう。
あとあんまり雑魚扱いしないみたいな。
とかは多分ポリコレの一部に含まれる。
そうなんだ。
じゃあその考え方に沿って多分データアップデートしようなんじゃないですか。
なるほどね。
データサイエンスにもポリコレの波がやってきてるわけですね。
やってきてるわけです。
大変らしいよ。
ポリコレを意識しすぎるせいで、
作品が面白くなくなるみたいな。
まあそうですよね。
全体的に平均値によっていくと何も面白くないですかね。
まあでもいいんじゃない。
データサイエンスって平均値出していく話だし。
そうだね。
確かに。
むしろポリコレとの相性は最高です。
このデータってPythonの機械学習扱うときのライブラリーがあるんですけど、
絶対一番最初にみんなが使うやつね。
データローダーかな。
あるね。
の中にデフォルトでデータセット入ってるんですよ。
入ってる。
で、ボストンのハウジングデータも入ってるんだけど、
ちょうどサイキットランがバージョン1.0とか1.2になるタイミングで、
もう非推奨になって、次からはこっちのデータにしてくださいねっていうところで、
ボストンからカリフォルニアにアップデートがかかりましたと。
そうなんだ。
カリフォルニアの方がなんかデータ見て面白いしね。
そうなの?
なんか多分そのなんだ、データサイエンス系は多分西海岸の方がもうちょっとこう対象がいいというか、
ビジネスに寄せるとね。
学術的な研究とかで言うと多分MITとかそっちもかなり強いから何とも言えないんだけど。
でもまあまあまあ西海岸の方が、そのデータを触る人口の比率もそっちの方が多い気がする。
そうだね確かになじみやすいのかもしれない。
そうね。
カリフォルニアの住宅データ。
まあいいね、ちゃんとこう寄せてきてくれてるのはめっちゃいいね。
でもこれまだ90年代の国勢調査のデータらしいです。
古いわ。古いわ。
なんでよ、アップデートしたのに。
20年アップデートしたけどね。
まあでも別にそれでどうしようって言われてもないしね。
まあね、確かにサイキットランってそういうふうにアップデートされるんだね。
ね、オープンソースなのにちゃんとアップデートしてくっていう方針が打ち出されるんですね。
確かに意外だったなそれは。
だからデータローダーみたいな。
みたいなやつだと、あとアイリスだよね。
ユリだっけ?
ユリ。
ユリか?あの花のデータですよね。
そうそうそうそう。
のなんか花弁の枚数とか。
はいはいはいはい。
のやつで、あれ何なんだっけ?何を予測すんだっけ?
おしべめしべ?違う?
花の大きさじゃなかった?あれ違ったっけ?
なんかあるよね。お花を予測するメルヘンなデータセットもあるじゃん。
学編の長さだ。