真実はいつも一つ。
コナン君って汎用性低くない?ダメAI学習機じゃない?
ダメだよ。アニメにAI持ち込んだら。
だってさ、コナン君ってコナンがいるかいないかで事件が解決するかの1-0フラグじゃん。
それで言ったら、モーリー・コゴローいるかいないかの1-0もデカいんじゃないですか?
大丈夫です。モーリー・コゴローはいなくても他に誰か眠らすから。
その子とかね?
その子姉ちゃんが眠ってくれればどうにかなるから。コゴローはもう1-0に寄与しません。
今回コナン回ですか?
いやコナン回ではないんだよね。
コナン回ではなくて、世の中の未解決事件をデータで解決していく警察の捜査データの話をちょっとしていこうかなと。
優秀でしたね警察官。
これ収録を通してね、俺もねばーって喋ってたけど、改めて警察すげーなーみたいな。
マッチョデカじゃないんですね。
今はね、マッチョダメ。
もういらない、マッチョ。
筋肉は裏切らないから。
テストステロンみたいなこと言うじゃん。
今は事件の解決は日本中全体でめちゃめちゃ高水準になるようにデータ分析がベースになってるっていうのを
警察が公式で出しているレポートとかを見ながらお話ししていこうっていう
科学系ポッドキャストのトークテーマ未解決に沿ったお話をデータ目線でしていこうと思っておりますので
ぜひ最後までお付き合いください。
隣のデータ分析屋さん
この番組は隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁを叶えるポッドキャストチャンネルです。
データアナリストのリョッチです。
データサイエンディストのタッチャンです。
今回は科学系ポッドキャストトークテーマ未解決っていうところで
警察のデータ分析事例を紹介していこうかなと思います。
そんなデータってあるんですねそもそも。
俺もねびっくりした。
今回毎月俺らも参加してるじゃん科学系ポッドキャストのトークテーマ
未解決って言われて
未解決って言われてピンとくるのってやっぱ事件なんだよね。
だから警察のとかってないのかなと思って
未解決事件データみたいな感じで調べたら
結構ちゃんと警視庁の中のドラマとかでよく出てくるプロファイリングチームってあるじゃん。
あるあるかっこいいやつね。
あれの人たちのレポートが結構出てくるの。
だから今回は警察の事件解決に向けたデータ分析の事例っていうのを話して
結局未解決事件がどうのこうのっていうよりは
未解決事件がこれでどんどん下がっていくだろうみたいなところを狙ってやってる分析
っていうのでトークテーマにちょっと合わせていってるって感じかな。
興味津々ですね。
そうなんかね。
あんななんかクールなドラマでめちゃめちゃクールな感じで出てくるのとは
似てるのか似てないのか。
なんかデータ分析目線で見るとアルゴリズム固いなってちょっと思ったりもする。
そうかそういう話も出てくるんですね。そのデータ使ってどんな分析したかみたいな
アルゴリズムを使ったかって話も出てくるんだ。
でだから今回はネタとしては警察データっていう話で
データ分析の手法としてはベイズ統計。
硬いね。
硬いでしょ。
これ今聞いててピンとくる人がどんだけいるのかっていうね。
ベイズって聞いて。
ベイズって聞いたらあの黄色い本思い出しますけどね自分。
ビショップの黄色い本ですね。ベイズ統計学の本。
あれどうなの?俺らはさ研究室で触ったからさあの本結構バイブル的な感じなのかなと思ってるし
あと前の会社データサイエンティストしかいない会社だったけどそこでも本棚には置いてあったんだよね。
そうだよね。自分も機械学習勉強し始めた時にまずはあれから学べばいいっていう。
よく林校とかで使われるっていう風には聞きますけどね。
ビショップさんね。
名前かっこいいよね。
かっこいい。
チェスの駒だもんね。
そうなんか。全然詳しくなかったけど。
名前かっこいいなと思って。
警察データに入っていきます。
1ヶ月ぶりの収録だからさ。
そうそうはしちゃってるよね。
しちゃうよね。
どうなんすか。
結婚式でっていう話はしていいんですか。
全然大丈夫ですよ結婚式があってそこに向けてちょっと準備が大変だったからまとめて撮ったんですよね。
もうだからマジ1ヶ月ぶりなんだよな収録。
そうですね。
あんなに撮るかってくらい撮ったもんね一気に。
6エピソードぐらい貯めましたよね確か。
貯めた貯めた貯めた。
でもおかげでしっかり結婚式があげられて。
いい結婚式だったね。
ありがとうございます来てくれて。
もうちょっとね出番あるかなと思ってたのよ。
なかったね思ったより。
俺だってほらあれ書いてるからさ保証人書いてるからさ。
はいはい。
なんかなんかあるかなと思って。
ごめんなさい親族席の一番近くに座ってもらうってところでちょっと重役をお願いしました。
すごかった。
転がしまくってるから。
親族をね。
聞かれたら怒られちゃうね。
そんな感じだからね。
良かったね。
ありがとうございます。
早速クイズです。
はい。
いきなりね。
ちょっとセンシティブな内容なんだけど。
今回出していく警察データの事例として1個レポート上がってたやつで。
屋内で行われたことがある合間事件における犯人の職業推定の精度はどのぐらいなのか。
プロファイリングの結果どうなるか分かりますか。
どんな職業の人がそういう犯罪をしてるかってこと?
そう。
芸人じゃないの?
そういうことじゃないそういうことじゃない。
そういうことじゃないやめなさい。
ダメ?ダメ?
それはダメか。
芸人はちゃんと1万円払って多目的トイレでするから。
言っちゃった全部。
そうじゃなくて予測の精度だねプロファイリングで。
全然当てられないと思うそんな。
これ意外と高くて7割ぐらいあるのよ。
7割の精度で。
職業というか職を持ってるか持ってないかみたいなぐらいの日分類だね。
無職かどうか。
7割で当てられるんだ。
7割ぐらいで当てられるっていうのがあって。
詳細に言うと平均で大体74%当てられる。
確かにね犯罪犯したら名前と職業絶対出てきますよね。
そうね出てくる確かに。
ニュースで大事なんだねそこ。
やっぱ無職なのか職業持ってるのかで確率とか動き方も変わってくるから結構重要らしくて警察データの中では。
それの予測精度っていうのがただ単純な今までの知見とか統計とかで溜めていったので当てられるのが大体74%らしい。
高いね。
でここに今回の肝はここで犯人の年代情報が追加した場合一体どのぐらいの精度に上がるのか。
元々74%でそもそも職業持ってるか持ってないかっていうのが分けられるのに対して
じゃあ年代が分かった瞬間にその確率はどれだけ上がるのかっていう。
あ、なるほどね。追加データが増えるってことか。
そう。
めちゃめちゃ高くなる?じゃあ精度。
これ88%まで上がるのね。
すごいね。
これがベイズ推定なんだよね。
まだピンときてないな。
元々経験則だったりいろんなデータから出てくる予測精度に対して
ある観測値を1個与えたことによって一気にその確率が塗り替えられる。
でアップデートされていって新しい数値が出てくる。
っていう事前の情報に対して何かしらの観測測定が行われて事実が一つ固まると
それだけ他のパラメーターの推定精度が上がっていくっていうのがベイズ推定っていう話なんだよね。
なるほどね。それをベイズっていうのか。
そう。今回はそれの話をどんどんしていくって感じ。
今のはあくまで一個の事例だね。
でも今回いろいろお話していきたいのはそこなんだけど
そもそももうちょっと大前提のところから
プロファイリングって何やねんっていう。
ドラマで聞くよね。
そもそもプロファイリングってその人がどんな人かとかを調査するというか明らかにするみたいなこと?
そうね。犯人の病像をどんどん明確化していくみたいなところで
元々は1970年にFBI方式っていう
FBIで採用された犯罪者とか事件の解釈を深めるための手法として提案されているのがプロファイリングなんだよね。
このプロファイリングは未解決事件に着目して
その犯人の行動とかを分析するとか現場に残っている情報とか
あとは被害者へのヒアリングとかそういうのを重ねていって
精神医学だったり心理学的な知見から犯人の行動とかを探る手法っていうのがプロファイリングの一番最初
イメージできる。ドラマでやってるイメージある。
逆に言うとドラマでやってるのって結構そこに近かったりするし
あとはその1970年代にそういうFBI方式っていう臨床的プロファイリングっていうのが実施されて
そこから10年ぐらい経った後に統計学的なアプローチに変わっていくの。1980年とか90年ぐらいから
統計学的にデータを使うようになってきたってこと?
そうそうそうそう。イメージ的に変わってきたのは1970年とかのプロファイリングは
インタビューとかそういう臨床心理学みたいなところがベースになっていたりするんだけど
そこから10年ぐらい経って統計学的なアプローチに変わってくると
変数をいろいろ集めてきて、それの統計量からこういう可能性がある、ああいう可能性があるっていうような
心理学者とか報道科学者って言われるような人たちが
データを見ながらいろんな予測をしていく時代に変わっていくんだよね。
じゃあちゃんと成長してるんですね。プロファイリングの技術も
データを使う。さっきで言うと30代の人はこういう動きをするよねとか
40代の人はこういう動きをするよねみたいなのが経験則として
かつデータとしてたまってきたよっていうことだ。
そうそう。あとはいろんな事例が出てくるんだけど
例えば殺人事件を起こすのってこういう性質の人が多かった
っていうので例えば年代とかの情報も出るし
それこそ職業あるないとかっていうのも全部データでたまるから
それぞれの依存関係みたいなのを
丸と矢印っていうので
ネットワークの図みたいなのを書いて
関係性まで可視化したものをベイジアンネットワークって呼ぶのね
かっこいいね名前が
そうベイズ推定が単純に1対1のなんか事象の関係性じゃなくて
複数の事象が重なっている
なおかつその中の例えば年齢決まったらこれが決まるとかっていう
相互的な関係性までマッピングしたベイジアンネットワークっていうのがあって
こういうのをいろんな事件に対して組み合わせることで
警視庁の人たちは未解決事件をどんどん減らしていって
操作の方法をアップデートしていくみたいなことをやってるらしい
警察すげーじゃん
警察すごいよね
すごいと思って
現場の勘じゃないじゃん全然
そうそうそうそれねマジでこのレポートの中でめちゃめちゃ問題視されてて
現場の勘みたいなのって1970年ぐらいまでの
FBI方式っていうのがまさにそれなのよ
あそうなんだ
そうであれって推定方法はもう経験則だし職人芸的なものじゃん
けどデータプロファイリングがどんどん進んでいくことで
確率論的かつ因果論的な推論ができるようになってくる
賢いね
なってくるといろいろ変わってきて汎用性がまず高くなる
警視庁でできたその傾向っていうのは日本全体に広げることができるから
それぞれの県警でこの知見を広げることで犯人捕まえるときの効率がめちゃめちゃ上がるとか
その方がいいよねだってなんかすごいスーパーウルトラデカみたいな
刑事がいないと解けないがなくなるってことでしょ
そうそうそう
なんか匂うぞみたいな
ああいうのはまじいらないもう
そうなんだそうであってほしいよね
そうだから平均値がめちゃめちゃ上がるみたいな
日本国内の防犯に対するというか事件が起きた後の犯人を捕まえるまでのステップが
めっちゃいいじゃん
だからそういうレポートがめちゃめちゃ出てるんだよ
そうだから結構内容としては面白くて
面白いっていう言い方で実例出すのは事件だからあんまり良くないと思うんだけど
例えばベイジアンネットワークによる連続放火犯の分析っていうのも出てて
放火事件っていうのの今までの連続放火事件の今までのデータをギュッと集めてきて
学習用データが518人
それに対していろんなパラメーター出していくんだけど
特にそのベイジアンネットワークをアップデートするための大きい要素として
言っちゃえば機械学習の特徴量ランキングみたいな
っていうところで一番注目するべきポイントっていうのは
窃盗歴と就業状況
えーそうなんだ放火犯なのに そうそうそう
放火犯連続放火が発生したってなった時に
窃盗歴に関する精度っていうのは80%出るんだって
えーそうなの ってことは
前科窃盗歴このデータがあるってことは窃盗歴のある人を
しらみつぶしに当たっていくもちろんめちゃめちゃいるんだけど
そうするだけで8割の確率でまずその中にいるわけだよね
すごいね 逆に職業だと絞り切れないっていうので
職業が持ってるか持ってないかだけだと50%しかないんだって
ってことは仕事あるかどうかを探索するのは時間の無駄じゃん
そうだね けど窃盗犯の中から目星をつけるっていうのは
めちゃめちゃ有用だっていう
へーじゃあ容疑者を絞っていけるんだ効率的に
そうそうそうここにだから年齢だったりとか目撃情報とかで
いろいろデータが絞られてくるとこの精度っていうのがさらに上がってくるわけだよね
大事なんですねじゃあその容疑者に関する情報提供を求むっていうところは
そうそうそう容疑者の情報が入ってくるとどうなるかっていうと
その情報が正しければベイジアンネットワークが
その情報1個でアップデートされて
アップデートされて操作の次の一手をどこにするかっていうのの目星が一気につくようになるわけよ
へーすごいなだから職業分かっただけで例えばここら辺に住んでる人かもしれないみたいな
別の情報がまた出てくるってことだ可能性として高くなる
そこからの逃走手段とかあとはお酒を好むかとか年代とか
そういうのによって例えば窃盗歴があるところから逃走手段のとこ行って
駐車場の場所とかそういったところまで確率がどんどんアップデートされていくとか
あとはだから通報とかも結構重要らしくて
窃盗歴あって通報とか連絡をしてきたっていうのがいて
そうするとそこから現場に戻る確率とかが分かってとか
っていうようないろんな要素とそれぞれの状態がネットワークでつながってるの
ネットワークの話って成功者の法則みたいなところでやったり話したと思うんだけど
コメントでもめっちゃ来てるからみんなネットワーク好きなんだけどまさにそれなんだよね
思ったのはそれってベイジアンネットワーク
このベイズ統計ベイズ推定ベイズ統計っていうのがないとできない話だなと思ってて
よくベイズなのか機械学習なのかみたいな比較をされると思うんですけど
なんか機械学習を使って予測するっていうやり方もあるじゃないですか
何かを予測するときって
でも今の犯罪者の傾向とかを機械学習使って予測しようと思ったら
その犯罪者の持ってる属性みたいな情報をちゃんと揃えてからじゃないと
AIのモデルが判断できない仕組みに基本的にはなってるから
曖昧な情報をAIに渡して答えをもらうっていうのは使えないよねっていう
機械学習と容疑者を絞り込むみたいな
どこの確率がどう変わるんだっけっていう情報は得られないから
そういう意味でもベイズを使うっていうところは賢い選択だし
本当にぴったり合ってるなっていう
これはねだからやっぱ賢いすごいなと思って
でもこれなんか俺が調べていろいろ出てくる文献って
ザイツさんっていう一人の人がめっちゃやってるのよ
こういう研究をしてる人がいるってこと?
そうあのね富山研系の人なのかな
ちゃんと論文みたいな形でめっちゃいろいろ出てて
そういう人やってるんだそういう人たくさんいるんだと思って
データ分析って幅広いなっていう
いやそうですね確かに
警察の中入ってデータ分析やりたいですっていう人ってあんまり
それこそ統計的に少ないと思ってて
少ないでしょ
だったら民間の企業で働いているデータサイエンティストが多いと思うから
でもやっぱ難いよね
意外と文系のさ学部の友達とかからはさ
友達が警察官になったとかって話よく聞くんだけどさ
理系の周りでいないじゃん
いない確かに
俺ゼロなんだよね
ゼロだしその道が見えたこともない進路としての道が
まあないね
でも公務員だからさ会ってもいいじゃん
確かにね志あれば道は見えてくるか
でもやっぱ雑魚医からいけないのかな理系って物理的に
理系雑魚医?
物理的にね
どういうこと物理的に
戦えないじゃん武道とか
そうだよねだって警察の人ってみんな柔道とか強いでしょ剣道とか
ねそうだよね
だからこの人が多分異質なんじゃない?ザイツさんが
マッチョ系データ分析家さん?
インテリマッチョ武道家
ポリス
物理的に強いねそいつ
物理的にも強い物理も脳も強い確かに
最強人類
そういう人がいるんですね日本に
しかもねちゃんと全部ね文献が日本語だったりするから
警察データ分析とか警察犯人推定とか警察ベイズ推定とかやると結構出てくる
なんかもっとそこにフォーカス当たってもいいっすよね
そうねでもだからちゃんと使われてるからドラマとかでもピックアップされるんじゃない?
しかもなんか一応ちゃんとこの機械学習とかでデータモデルの検証するときって検証データみたいなの用意するじゃん
モデルの精度を確認するために準備しておくデータってことだよね
であれをちゃんと答えを与えずに犯人の特徴とかを与えずに検証とかをちゃんとやってるから
これって結局その今日のトークテーマにつながるんだけど
未解決事件を読み込ませたらどういう病像が見えてくるかっていうのを検証してるのと一緒なんだよね
答えを答えを与えずに事件をモデルに予測させて推論させて
で結局警察が答え持ってるからその前に起きた事件だから
それで答え合わせができるからそうするとそこの精度がある程度あるってことは
今起きた事件もそうだし過去の未解決事件とかにも適用できるようになるわけじゃん
汎用性ってことだね 大事だね
機械学習とかにはめちゃめちゃ大事じゃん
っていう検証もちゃんとやってるからやっぱこれは未解決事件とかを減らすとか
またさらに解決に向かわせるみたいなところにも使えるかなり面白い研究なんじゃないかなというところで事例紹介してみましたって感じですね
じゃあ本当にみんな情報を持ってたら警察に伝えなきゃダメですね
それはマジそうねこれを見て俺も思ったよ
そうだよね
それが信憑性があるのかないのかは向こうが調べてくれるから
そうだね
たぶん現場の人たちが動いて裏取りして確実にそうだってなったら
一個ピースが埋まる
埋まることによってベイズ推定のモデルがアップデートされていくみたいな
でもこれ逆に新しいタイプの犯罪が起きた時って大変だ
まあそうね
ここはどうしても簡単に解けるわけではないってことなんですね
だからあくまで事前確率みたいなのをちゃんと持っていることが大事だからベイズ推定に関しては
まあそれは仕方ないか
人間もそうだよね新しいことに対してはねどうしようもできないけど
そこはたぶん警察の地形みたいなところが試されることにはなっちゃうんだろうけど
まあでもそれでもたぶんそこでさらにデータ分析で
なんだろうな犯罪の種類がこのクラスターに分類できる