先輩データサイエンティストからの指南書。
実務で生き抜くためのエンジニアリングスキル。
技術評論者。
はい、朝野さんですね。
一回出てもらってるよね。
出てもらった。
喋った一緒に。
ブレインパッドっていうデータサイエンスの会社があって、
そこのやってるオウンドメディアというか、形でやってるポッドキャストチャンネル、
しろがね工業FMの、何ですか、2代目MCというか、2代目管理人というか、
をやってる朝野さんね。
その後もいろいろお世話になってますわ。
ブレインパッドのイベント呼んでもらったり。
そうだよね、イベントで一緒にやったとか言ってましたよね。
いいやつなんだよな。
いいやつですよね。朝野さんの性格みたいなところがぎっしり詰まってるのを感じましたね。
丁寧な仕事をされるんだろうなみたいな。
そうそうそう。
それで、8月の末とかかなに、技術評論者からデータサイエンスの本を出したと。
5人で協調。
で、筆頭著者がポッドキャストにも、隣のデータ分析屋さんにも出てくれた朝野さん。
あとは、3番目の著者になってる田中東真くんも、結婚式とかで会ったね、そういえば。
そっか、あの人か。
あ、そうそうそうそう。
そっかそっか、田中東真さんがいてみたいな感じのいい本をもらったけど、
俺はこのタイミングでこの本を読んでめっちゃよかったなと思った。
自分も学ぶことが多かった。
ざっくり先にどんな本か紹介したいと思います。
確かにね。
ざっくり言うと、なんかデータサイエンスの新人とか、
まあ、初学者みたいな、あとはこう、配属されるちょっと前みたいな、
なんかそのぐらいのタイミングの人が読むと、めちゃめちゃいいレベル感の本になっていて、
で、なんか分析のやり方とか、分析ノウハウみたいな感じってよりは、
分析の環境とか品質とか、可視化の仕方とか、実験の仕方とか、
なんかそういう分析全体の、ほんと実務に寄ったところを、の一連の流れをまとめた一冊みたいな感じ?
そうだね。まさに先輩から教えてもらう指南書っていう、だからタイトルの通りでしたよね。
そうだね。だからなんか良かった。俺今、新卒一人と企画職から移動してきたデータアナリストのメンターみたいなのをやってるから、
なんかその目線でも、その目線でめっちゃ良かったなと思って、普通に読ませようって思った。これは。
いや、確かにそうかも。なんかデータ分析を仕事にしてるっていうところで、
仕事に入って、実際分析業務で終わってはいけないよねっていうところをメッセージとして書いてるよなと思って、
なんかこの表紙に、ノートブックで動くだけで満足していませんかっていう投げかけがあると思うんですけど、
そのノートブックで実験回して分析して終わってるようじゃ、それは仕事と言いませんよみたいな、
そっからいかに商用で動くものを作るかみたいなその橋渡し的に意識しないといけないことが書かれているから、
仕事の中でデータサイエンディストをしている人たちは意識するべき内容が書かれている必殺かなと思いましたね。
けんぽんしてもらって、おもろかったらポッドキャストより喋りますねって言っておいたけど、
そうだね。
ちゃんと面白かったから話します。
ステマというか解説してれとかそういうわけじゃなくて、本当に読んでみて面白いなと思ったんで、その内容を喋りたいですね。
今回三部作にしようかなって思ってて、先輩データサイエンディストからの指南書よかったなっていう話して、
俺が新人教育みたいな担当になってるからそんな話をして、
その話をメルカリと一緒にやってる、メルカリとDNAでやってるめっちゃクローズドなシニアアナリストコミュニティみたいなのを作ってるんだけど、
そこでその話をしたらすごい評判が良かったというか、いろいろ質問とか出て面白かったから、
そこでの回の話とか、そもそもそういう回やってる理由みたいな話とかをする、
なんか三部構成にしようかなみたいなのを思いながら喋り始めてる。
というので、どうですか?この本良かったけど、どこがしっくりくるのかなっていうのはちょっと気になってた。
はいはい。
面白いなと思ったポイントみたいな話?
そうそうそうそう。
自分が良いなと思ったのは、やっぱりさっき言ったノートブックで動くだけで満足してませんかっていうところからの、
いわゆるドットパイでちゃんとファイルを作ってこうぜっていうところが最初に言われてた部分?
はいはいはい。
そのドットパイで作ったファイルをどう管理していくかみたいな品質管理の話はすごくためになる部分が多かったかな。
ああ、そのiPi NBではダメだと。これ伝わってるよねきっと。
ノートブックで何?みたいな人向けに話したほうがいいのかな。
まあ確かに、ノートブック、簡単に言うとなんか普通にプログラミングってバーってコード書くばっかりのイメージのところから、
マークダウンで最近表記するみたいなのが流行ってるけど、ああいうのみたいな感じで結構インタラクティブに一行一行実行して、
あ、これは通る、で関数作ってみて、はいこれも文法問題ない、みたいなのやってて、最後なんか出力までの一連の流れを、
ちょっとなんかプログラミングって一個のでっかいフローみたいな感じだけど、
それをコマ切れで実行しながら直感的にわかりやすくしてあるPythonの開発環境みたいな。
ありがとうございます。丁寧に説明してくれて。
あれだとダメだっていう話がまあ軸になってるわけだよね。
そうだよね。だからそれをもうドンと言ってる本だったから、
これからもうiPi NBのノートブック形式で分析するのやめたって、これを気に思いましたね自分は。
別にドットパイでもできるしなっていう。
まあそれはそうだね。でもなんかこれ結構会社ごとに分かれるなと思ってて、なんかその表紙にそうやって書いてるから、
まあ確かにそこが売りの一つになるだろうなと思ったけど、
思ったけどなんか、じゃあドットパイまで落とさなきゃいけない状況がどのぐらいあるかみたいなのって、
例えばブレインパッドの場合は外部から入ってくるコンサルみたいな形じゃん。データサイエンティストとはいえ。
うんうん。
で、たっちゃんは結構なんかAIエンジニアみたいな雰囲気は結構強い。業務内容。
うんうん。
で、俺はデータ分析を直でその課題を見つけて、そこからどういう事業方針に変えていくかみたいなところをやるみたいな仕事。
事業推進する人の横で散歩みたいな形で動くみたいなのが多いってなると、確かにこの本めっちゃ読ませたいなって思ったけど、
うん。
俺的にはなんかその軸んなんのは、ノートブックのままで良くなくないすか、みたいなところは、
うんうん。
俺の周りの業務ではあんましっくりこなかった気もするなっていう。
あー、なるほどね。
そっかそっか。まあ確かにね、そのクイックに分析してパッと見せるだけだったらノートブックで十分で、別にそれをプロダクトに落とし込む必要がなかったり、
どっかお客さんにファイルとして納品するっていうことが目的じゃなかったら、あまりこう当てはまらない内容かもしれないですね。
そうだね。だからなんか、まあもちろん触手にも結構依存するなぁとは思ったけど、思ったから、なんか俺は全体の流れがめっちゃいいなと思ったけど、そこはあんまりしっくりこなかったなと思ったけど、
よかった?その部分は、うわ、だよなってなった?
だよなってなりましたし、やっぱりこうノートブックっていう形での品質管理とか運用とか、なんかそういうところの難しさを日々業務で感じていたから、
なんかそこの形をこうドットパイで統一されてるっていう世界の中で仕事したらすごくスムーズにいくのはすごく共感できたし、
あと、個人的には最近言ってもコードって自分の手で書くよりかは、AIに書かせることが多くなってきてるじゃないですか。
そうなった時にノートブックの形式よりかは、Pythonファイルの形式の方が相性いいんですよね。
生成AIがコード書いてくれるときって、ドットパイのファイルの方が読みやすいから、AI側が。
だからそういう意味でも、この生成AIのが当たり前な時代だとドットパイを使っていくことのメリットって結構多いよなっていうのは感じましたね。
あー、それはあるな。確かに。今なんか微妙かもとか言ってたけど、その目線で考えると、確かにノートブックからの脱却がめっちゃ大事なのかもしれない。
そうなんですよ。もうね、ノートブックをね、AIに触らせるともうぐちゃぐちゃにされる経験を何度も今までしてきたから。
あ、そうなんだ。
あれって裏では、何の形式なんだろう、JSONみたいなファイル形式になってて、なんかおかしなことになるんですよね、生成AIに触らせると。
そのセルの一個一個の区切りとかがよくわかんなくなったりして。
だから、もう自分はノートブックは触らせないようにしている。最近はもうそういう風にしてますね。
で、一方でドットパイのファイルでも、この本でも書かれてましたけど、インタラクティブウィンドウみたいな仕組みがあって、
コードの区切りで、ハッシュタグパーセントパーセントみたいなものを、VSコードだとね、それをつけるだけで区切りごとにノートブックを実行するみたいなことがドットパイのファイルでできるから、
これ使っていけばいいじゃんっていうのは一定ありますね。
俺これ初めて知ったんだよね。
本当ですか?知らなかった。
意外とね、これめちゃめちゃ便利でいいですよ。
ふえーってなって、じゃあこなれてきたらいけるなみたいな。
そうですね、確かに確かに。
これVSコード使っていると拡張機能を入れてできるようになるんだよ、確か。
これね、入れようと思ったわ。
入れようと思ったけど、まあ別に直感的にノートブックで触ってもらう方が楽かとも思ってたから、どっちがいいかなっていう感じはあったけどね。
なんかその、分析業務とかだけで言うと、そこまで環境依存で変わる結果はもうクソじゃん。
だから別に正直あんまり困ることないなっていう感覚はあったけど、
最近分析組織の全体のアナリストAI化計画みたいなところのリーダーみたいなのをやっていて、
で、その中でじゃあ最後可視化のところをどうやってやらせるかみたいなところで、今回の話はさっきの話みたいなのはめちゃめちゃ役立った感じはある。
SQLとかで出てきた結果をどう可視化させるかみたいなところを、結局はなんかデータアナリスト全員AIでがっつりやらす、
で、GitHubのコパイロットとか使わせるとかってなると、ローカルの環境を整えなきゃいけないし、
なんかPythonもある程度わかってなきゃいけないし、環境を整えることがどれだけ大事かも書いてあるし、みたいな目線でめっちゃいいなって思った。
そうだね、確かにそれはあるね。
その話でいくと、もう最後の、この本の最後の章って、なんて書いてたかな、プロトタイプの開発かっていう内容を盛り込んでたのには多分、
実験で終わらずちゃんと見えるもの、アウトプットまで意識して作るのが当たり前だよねっていうメッセージかなと思っていて。
はいはい。
ストリームリットでも簡単にアプリを作っちゃうというか、ウェブアプリみたいなのを作って分析結果を可視化するっていうのが書かれていたのも、
なんかこの、今このデータ再現とか分析業務やってる人にとって一番苦手というか、逃げていた部分を指摘されているような気持ちになりましたね。
やらなきゃダメだよねと。
俺、でもね、やっぱここなんかね、通ずる部分があってめっちゃ嬉しかった。俺が書いて、ほら、3月に出した本も最終章ストリームリットでのアプリケーション化だったから。
そう、だから、やっぱその実務に寄せていこうとすると、最後プロトにしなきゃダメじゃんっていうのを伝えたくなる、めっちゃ。
いや、わかる。
それはめちゃめちゃ大事。
でもなんかそのAI、今このAI時代になった結果、ストリームリットを一発目のアプリケーション、そのプロト作るとこの入り口にすんのは、なんだろうな。
ハードル、もっと低いハードルでできることがたくさんあるなっていう気もするんだよね。
ほうほう。
ストリームリットに、ここでストリームリットの作り方がちゃんとわかれば、あれか、AIにお願いするやり方も簡単にいけるわけか。
でも最近、最近はそこの知識がなくても、AIとの対話でウェブアプリケーションの側を作ることができるようになってるから。
うんうん、確かに。
V0とか、最近ラバブルめっちゃ使うんだけど。
うん、前回も言ってたよね。
とかは、まあなんかそれができて、でなんかそのPythonのファイルとして出来上がってるものとか出来上がってるモデルを組み込むところをちゃんと伝えればいいだけ。
みたいなのにできると思ったら、6章は今の時代にはちょっとハードルが高すぎるような気もするなっていう。
なるほどね、ハードル高すぎるようになるのか。
いや、どうだろう。
確かに職種とかやってる仕事によるかもしれないね。
本当にデータサイエンス組織、多分自分が今いる組織とか、朝野さんとかも比較的データサイエンスの組織だと思うんだけど、
彼らはおそらくPythonのファイル、Pythonっていう言語をほぼ100%使ってる人たちだと思うんですよ。
で、その後の時にストリームリットでPythonで完結して仕事をするっていうのが、ところが最低限できたらいいよねっていう話で。
まあ確かにそうか。
HTMLとか触るのは確かに生成AI使えば簡単にできるんだけれども、そこまでやっちゃうと少しオーバーというか、やりすぎなところもあるかなと思ったりしますね。
そう言われたらそうかもしれないな。
まあでもやる仕事とか職種によるんだろうなここは。
確かに。Pythonで完結でっていう考え方だったら確かにそうかもしれない。
何勝手にHTMLとかゴリゴリ作ってるんだよみたいな風に言われられないよなと思うから、今自分の組織でね。
なるほどね。
やっちゃうとね。
まあでもここの作法があれば逆に言うとPythonで完結もできるわけか。
まあそうね、いずれにしても表に出せるものをプロトタイプとして何か作れるってところは必須だよなとはもう本当に最近は思いますね。
本当にね、会社から出ちゃってるからな俺、リリースで。
何を?
企画書いらんって。
ああそういうこと?
企画書じゃなくてプロト見せてっていう会長の資料どっかでこの間発表されそう。
もうドキュメントで企画書回すなって感じなんだ。
ああそうそうそう。
まあそうだよね。
企画書がちゃんとできてるんだったらエリアに投げたらプロトもできてるでしょみたいな。
まあ多分そういう発想なんだけど。
そうだよね。
なんかもうそうなってくるとゆくゆくはさ、プロトできて当たり前になってさらにもう一個進んで、なんか実証実験やってその結果だけ見せてってなってきそうだよね。
確かにもうどんどん多分求められるところが高くなっていくというか、今まではすげえ先立ったところがもう当たり前の線引きになるみたいなのはあるよね。
怖いよね。
だからなんか本当今その、いや別に企画書いらんからプロト見せろやみたいな。
その流れに乗れてないと逆に次、その次の段階まで見せなきゃいけない時にステップアップできない。
一個飛ばしではなんかできる気がしないから。
本当にそう思うなあ。
だからねここはもう頑張っていくしかないよね。
なんか5年6年前に自分がデータサイエンティストとして新卒で仕事を始めて、あの時に求められていたスキルだったり能力っていうことと今データサイエンティストに求められるものって変わってきたよなとこの本読んでても思って。
あ、そう。
その一つにしっかりコードを書いてテストしましょうれとか、なんかこう細かい、なんて言えばいいんだろうな。
Pythonの中でのクラスとかメソッドとかっていういわゆるオブジェクト思考をちゃんと取り入れてコードを作っていこうねみたいなところがもう当たり前にやれって言われてるじゃないですか。
まあ確かに。
そんなこと昔言われたなかったよなと思って。
なんかソフトウェアエンジニアの人たちがちゃんと守るべきルールで、データサイエンティストの人たちは分析やって結果出せればOKじゃんみたいな。
そういうレベル感だったはずなんですけど、今もう違っていて。
あーなるほどね。
そういう意味でも必要な能力って変わってきてるし、幅が広がってきてるなとは日々日々感じますね。
そうだな、まあ確かにそうだね。そこら辺なんかもうAIができちゃうっていうのもあるし、求められてる内容も変わってきてるしみたいな。
そうなんです。で、AIできちゃってもそのAIの結果をちゃんと理解するためには、知識としてそのオブジェクト思考とか、なんでこういうコードの設計仕様になってるかって理解してこなきゃいけないわけで、
そういう意味でも単にこうAIにやらせるだけじゃダメで、ちゃんと日々勉強はしてこなきゃいけないから。
確かにな。
大変だよなと。
これどうなんだ、なんかさ、ほら俺は天文の研究職をやったところから、まあなんか転職みたいな形でデータサイエンティストになったじゃん。
はい。
あの時は、分析能力とか物の見方とかが横展開できるから、研究者がデータサイエンティストになるのは割と許容されるというか、むしろウェルカムみたいな感じだったけど、
なんか研究の現場にいたところから、この本に書いてあって求められるようなところとか、プラスなんかAIでめっちゃ開発が爆速になって、
AIネイティブな組織になってるところとかに馴染めるのかで言うと、なんか畑が違いすぎるところになってきてるような気もするなみたいな。
おっしゃる通りじゃないですかね。
なんか求められる内容が変わってきたっていう話って、そのまんま別業界から入ってきてもいいよって開いてた間口の角度が変わってたり、広さが変わってたりするわけじゃん。
確かにね。
だからなんか、もちろんなんか統計とかめっちゃ強いし、考察とかも多分比較的研究やってた人の方が強いみたいなの、ベースラインは高いはずだから、
まあ、あとはなんかそのAIで爆速に進んでるところに馴染めたり、プロダクトに落とすっていうところまで馴染める人は引き続き、
てかむしろすげーフルパワーを発揮できるような気がするけど、なんとなく俺が移ってきた時のあのスキルセットの感じとか雰囲気だと、
今のデータサイエンティストに求められてるところには、転職するタイミングで満たしてない感じもちょっとするなーみたいな。
そうかもしれないなー。かなりエンジニアリング能力求められるようになってきてますよね、データサイエンティストが今。
なんかそんな気するよね。
うーん、それは自分も現場でそれは感じるので、もしかしたら今研究職から来るっていうのは違うのかもしれないね。
ね、まあきっとそういうのは置いといてもやっぱ物の見方とか、研究やってたところの人の方がいいよねっていう見方もまあなくはないんだろうけど。
もちろんもちろん、データサイエンティストの中でもよりビジネスよりというか、こうどういうふうにデータを使っていくかっていうところを考えるところでは、
もちろん研究職の人たちが得意とする思考力とかの部分は必要になるから、同じデータサイエンスといってもまたちょっとね、違うところでの能力としてはまた求められる。
そういう本にはあまり書かれてないというか、対象としてない領域だったけど。
確かに、新人だしね。
うん。いや、そうなんですよね。なんかデータサイエンティストの求められる能力がその、広くもなってるし深くもなってるなとは思うから。
確かに大変だな。
大変。
俺今だったら、今だったらなるのかな。なんないだろうな。
いやーね、簡単ではないですよね、この仕事はね。
なんかね、俺はちょっと遅めに入ったけど、それでもなんかこの数年の変化の中でちゃんとキャッチしてたからどうにかなってるみたいな気はするけど。
いきなり入るの大変なんだろうな。でも人足りないからとってもくれるのかな。
まあ確かにね。でもなんか最近はその同じ名前データサイエンティストとかっていう名前でももう業務が分かれてエンジニアリングに強い人たちとか、そういう考えたりとか上流のことをやるビジネス寄りの人たちとかで、なんかそれぞれの特化ができてきてると思うから。
確かに。
データアナリストからデータアナリティクスエンジニアっていう言葉ができてきて、だからそうすると基盤とアナリティクス両方できるみたいなとか、データプロダクトマネージャーみたいなのが出てきたりとか、確かに分かんないよね。
データストラテジストとかもあったりしますからね、今ね。
いやそうなんだよ。
あのそのね、なんかネーミング、ネーミング次第でその結局求人に引っかかるか引っかかんないかみたいな話があるから、そこね、マジでシニアの人たちの一番の悩みどころ。
ねえ言ってましたよね、そんなことね。
この間もね、その話したわ、シニアアナリストのコミュニティのディスカッションの時間で、結局最近どんな名前で募集かけてんすかみたいな話をしたら、2種類で出してるって人いたわ。
同じところの求人だけど、表には別々の求人として見せてるってこと?
ジョブタイトルが違うっていう。
そういうことね。
中身は一緒ほぼみたいな。
詐欺広告じゃないけど。
そう、そうしないと引っかからない、なんかその変な多様性みたいのが生まれてしまったせいで、狙いたい人が狙えなくなるみたいな。
賢いやり方かもしれないですね、それは。
検索する側とか、プラットフォームにそこが握られすぎてて、見つけてもらえないみたいなことになるんだよね。
最近さ、これ俺この間気づいたんだけど、Googleの検索とかYouTubeの検索、外国のやつめっちゃ出にくくなったの気づいてる?
あー、確かに。そうかもね、日本語の記事ばっかり出てくるね、言われてみると。
そう、英語で検索しても英語の記事にたどり着くのにめっちゃ時間かかるようになって。
確かに確かに。なんで?
めっちゃめんどくさいんだよ。あれ多分アルゴリズムというか、ローカライズが強まったらしい。
あーそういうことか。
どこかのタイミングで。
なんかすげー使いづらいなと思って。むしろアメリカでの事例とかばっかり最近仕事の中で見るから、調べたいのに日本のすげー浅い解説記事ばっかりGoogleの検索出てくるようになって。
はいはいはい。
で、なんか言語変えると変わるんだよね。
あーそういうこと?
クロームとかの本体とかかな。変えると変わるみたいになってて。そうしないと知りたい情報にたどり着けないみたいな。
これ探す側もそうなってるけど、それって検索プラットフォームに握られてる結果じゃん。
だし、見つけてもらう側も見つけてもらえなくなってるわけよ。
だから日本の求人を外国人に、アメリカ人に見つけてもらうみたいになった時に、アメリカのサイトに表示する今までだったら表示されてたのにされなくなってるみたいな。
どっちも困ってるはず、今。
確かにね、言われてみるとそうか。
そうなんだよね。
まあなんかそんなことがありながらだけど、めっちゃ本からすげーそれたけど。
とりあえず俺は、自分が見てる新卒の子にはちゃんと進めようって思った。
いや、いいっすね。自分も1年目の時に読みたかったっすね。
いい本なんで。結構ほら、今データ分析始めてるんですみたいな、データサイエンティストになりたいんですみたいなお便り多かったじゃん、一時期。