SIerのデータサイエンティストのお仕事とは？

00:05

みなさん、こんにちは。TRY-CATCH FMの第2回目を始めていきます。よろしくお願いします。

今日のテーマとして考えているのは、SIRのデータサイエンティストの仕事とは?というテーマで、

僕ら二人、元々、KOSDAは今も働いているけど、SIRの会社に入って働いていたわけですけど、

一般的にTwitterとか、KITとかのブログとかでバズったりするような記事のデータサイエンティストって、

ウェブ系なことが多いなっていう印象はある?

そういう意味では、SIRのデータサイエンティスト、彼らをデータサイエンティストと呼ぶのかどうかという話を置いておいて、

データ分析、機械学習とか、ディプランニングとかしている人とかいるわけじゃないですか。

KOSDAもそれに近い仕事をしていたよね。

それ実際、ウェブ系と違ってどういう実態になっているのかみたいなところを話していければなと思っております。

まず一番最初のトピックとしては、ちょっと軽く説明をしてもらいたいんだけど、

一緒に俺らプロジェクトをやっていたから、何となくはちょっと分かっているような気もするけど、

改めて聞いてみたくて、どういうプロジェクトをやっていたの?

僕とみやんちは結構一緒のところにいたけど、

ヘルスケアとか、ライフサイエンスみたいなところでよくプロジェクトをやっていて、

製薬とか病院のところのお客さんの売り上げとか、

社員さんの活動の分析とか、みたいなことをやってたよね。

で、手動に活かしてフィードバックをもらって、また次のレコメントとかそういうのに活かすっていうようなことをやってたよね。

そうだね。なかなかしんどいプロジェクトだったよね。

フェイスによってアップダウンがすごかったりね。

そうね。この後はもうちょっと深掘りしていこうと思うけど、やっぱりSIR独特の辛さとかってあるよね、多分。

お客さんからの受注の仕方とか、なんかデータがもらえないで何もできない時期とか。

そう、データもらえない時の分析してくださいっていう。

03:02

すごいNQさんかな、みたいな。

そうそう、これあるあるだよ。

ね。

ちょっとそういう、なんでそういう状況に陥るのかみたいなところも含めて、

次のトピックはプロジェクトの運び方っていうところで、何にきっかけでプロジェクトを発足して、

どういうフェーズを経てどう仕上がっていくのかみたいなところをちょっと話していければいいかなと思うんだけど、

一番最初はもちろんSIRというか受託してる身なんで提案をするんだよね。

そうね、ITコンサル的な側面が強いからね。

それって営業が提案するのか、コンサルが提案するのか、データサイエンティストが提案するのかとか、

いろんな職種の人がいるけど、そこら辺ってどうなってんのかな。

正直全パターンあったよね。

営業の人、でも営業よりはコンサルとデータサイエンティストが多かったかな。

営業の人が中の人とつなぎとか、コミュニケーションとか戦略的なこの人とのつなぎみたいなところを頑張ってくれて、

コアな部分はコンサルとか、それプラスデータサイエンスできる人とかがやるって感じだよね。

なんか俺の理解では、パッケージ製品とか売るときは営業が結構いってるみたいな。

例えばクラウドとか分析ツールとか、BIとか入れましょうみたいな提案は営業がしていて、

スクラッチ系、例えばデータウェアハウス構築しましょうとか、それこそ分析モデル立てて営業効率化しましょうみたいなやつは、

コンサルとかデータサイエンティストとか、それぞれのエキスパートが提案してるのかなみたいな感じかな。

まだ名前がないものを作っていくのは、その人たちで。

まあその分ね、ちょっと炎上のリスクもあるけどな。

ノウハウもたまるし、それがパッケージになったりするから。

まあそうね、確かに確かに。それでお客さんから一緒にやりましょうってなって、

プロジェクトが一番最初のプロジェクト、フェーズ0とかフェーズ1とかが始まるのかな。

そこが肝だよね。

まあいわゆるPOCって呼ばれてる、日本語に直すと、何だ、仮説検証、効果検証、違うな、概念検証か、プルフォームコンセプトだか。

そうだね、そんな感じだと思う。

まあそこで多分実際に使えそうなデータとかを集めるの?

そうだね、なんか最初にこんなことをすると音者はいいですよねっていう提案をある程度多くしてるはずで。

仮説ベースでね。

そうそう、でそれを実現するためにはこういう切り口ができるんじゃないかっていうので、

06:03

まあただの、ただのって言ったらあれだけど、既存のIT、古くからのITみたいなものでインテグレーションしていくのでできるならいいんだけど、

どっちかっていうと大量のデータがあるので、それで継続的に改善しながら分析で良くしていきましょうみたいな。

アップするとかもできるし、みたいなものをやることにデータサイエンスが活躍するよね。

そうね、結構AI系とかデータサイエンス系の案件でPOCが多いよね。

やってみないとわからないからね。

まあそうそう、そこコミットできないんだな、この制度の。

何パーセント出しますみたいな。

できないからね。

逆に国側から見てもね、私見てるからわからないから、でもPOCならちょっとやってみれる額だし、

まあ確かに。

上に言いやすいって言うのね。

確かに確かに。

てかまあAIでPOCしますって結構その社内の倫理とか通りやすいのかな、知らんけど。

そうだね、でそこで実績を作ってしまったら前回これだけの効果が出ましたよね。

だから通じませんっていうのは言いやすくなるし。

まあそのPOCで終わるプロジェクトも多い反面、そこを乗り越えたらみたいなところが結構キーポイントなのかな。

だからPOCを乗り換えるためのあらゆるノウハウをしっかりとするよね。

まあ確かに確かに。

どういうことをしてた?

えーっと、まあ俺がいたチームはあれだね、単純にExcel、PowerPoだけで納品するんじゃなくて、

簡単な管理画面というかダッシュボードを作って、ここからポチポチフィードバックすればさらに改善していきますよみたいなのを、

まあちょっとその社内の乗務フローの一つに組み込んでもらうとか、

いうのが結構大事というか、チームとしてアプリは作ろうみたいな、イケてるUIでアプリを作ろうみたいなやつはやってたかな。

えー、それ実はかなり大事だよね。

まあね。

キャッチーってのもそうだし、もう使い始めてるから、なんかじゃあこのまま作っちゃったら、

そうそう、次のフェーズで、例えばこの管理画面の次のページを作りましょうとか、

まあそういうことの提案もしやすいみたいなところはあるんだよね、多分。

そう、なんか初めてのもの、特にAIのとかって、どんなのになるんだろうってのがわからないから、

そうそうそう。

で、そういうのがあったりとか、そういうのがあったりとか、

しかもこれめっちゃ綺麗で使いやすくて今風だねってなったら、

もう結構採用は目の前っていう特徴があるけど。

確かに確かに。

まあジョームに組み込むっていうのはね、AIをジョームに組み込むっていうのは結構大事なのかな。

データありきだし、フィードバックもらって改善がやっぱ大事だからね。

そうだね。

で、ちょっと話を戻して、そのPoCが無事、例えばいい結果になりましたねみたいな話になって、

09:06

そしたら多分本番の、本番っていうか、もっと規模の大きい、

例えば一つの視点で、一つの視点で、一つの視点で、一つの視点で、

一つの視点で、一つの視点で、一つの視点で、一つの視点で、一つの視点で、

例えば一つの視点だけでのデータじゃなくて、

全国の視点でのデータでやってみましょうとか、

そういった次のフェーズのプロジェクト、フェーズ2とか3とかっていう方向になっていく感じかね。

基本的にね。

そこで割とちゃんとクラウド環境とかサーバー負荷がみたいな話と同時に何千人ですみたいなのになって。

確かに確かに。

そこでデータサイエンスのみみたいなプロジェクトから、データサイエンスも組みつつ、

SEとかIT側のプロジェクトになるよね。

それこそデータ連携どうしますかみたいなデータ基盤的な話も出てくると思うし、なかなか規模が多くなってますよ。

分析の効率みたいなものもね。

そこそこのデータ量に対して今までデータサイエンスの人が精度を求めて組んでくれてるから、

SE的に見るとちょっとコードがあれだよねみたいな。

確かに。

あるのでそこをちゃんと拡大されたとき、拡張されたときの考えつつ、サーバー負荷とかメモリ負荷考えて、

オブジェクト仕込みまでやるかっていう話もあるけど、ちゃんとコードの再利用とか拡張性とか。

確かに確かに。

結構そこからSE的なもの部分が大事になるよね。

確かに確かに。

規模が大きくなったっていうときの話で、メンバーとかも変わってくると思うんだけど、

例えば最初のPOCフェーズからどんどん規模が大きくなっていったときのメンバー構成ってどうなっていくのかなっていうとこちょっと話したくて。

例えば最初のPOCフェーズだと何人くらい?普通に3,4人?2,3人とかそんなレベル?

そんなもんだよね。PMがいて、データサイエンティストは1人とかにやったりするよね。

確かに確かに。

手がちゃんと動く良い人いませんかみたいな。

お客さんとも話せるみたいな感じかな。

ほぼコンサルもやってるよね。

そうね。

12:00

Powerpoint作ったりするし。

で、あと1人アプリケーションデベロッパーがいるみたいな、ダッシュボード開発要員がいるみたいな感じかな。

やはり宮地がいるってことですね。

俺はどっちかっていうとそういう、もはやダッシュボードというかプロトタイプ?

例えばスケッチとかFigmaみたいなデザインツールで機械学習の結果がアプリ上に反映されますよみたいなイメージを作ってあげたり。

データを受け取ってちゃんとそれを画面に表示するまではやってたもんね。

そうねそうね。

でもJSONハードコードとか全然してたよ。

たまに開発中に見つかっておっとって出てくるからもらえみたいな。

それはちょっとね。

でも最初のPOCだからね、コストはできるだけかけずっていうところでやっていく感じかな。

でもすげー綺麗に作ってたもんね。

あれはめちゃめちゃ貢献してたよ。

あれあれでも社内アセットみたいなのあって一応はダッシュボード。

社内OSSみたいなやつあって。

そうそうそうそう。

それ使ったりね。

結構楽にできたりするんで。

それぞれが自分の仕事っていうのをチームごとに一人って感じでやっていくのが最初のPOC段階だよね。

そうだねそうだね。

でそこからPOCOKってなっていえば大きくなってくるとある程度チームに分かれる感じかな。

そうだね。一チームには3人とかになっていくのかな。

リーダープラス1人か2人みたいな感じで開発が。

もう最初のリリースまではその人数で結構いっちゃうもんね。

フェーズ1とかそんな感じかな確かに。

どんなチームがあったかな。

まあでもデータチーム?AIチーム?何て言うかわからないけど。

バックグラウンド&データサイエンスみたいなチームがあって。

あとアプリチームがあって。

インフラチーム?

インフラチームがあって。

データ基盤を中心にいろいろ見てくれる。

公的に見てくれる。

データウェアハウスを見るチームみたいなね。

そうだね。インターフェースみたいなね。

別のこと言うか。

とかじゃない?それプラスPMとかクライアントの報告する人がいて。

会議とかに行って調整する。

やっかいなのが、アプリチームとかは海外にいるんですよね。

オフショア。

15:02

でも、やっかいなのが、アプリチームとかは海外にいるんですよね。

オフショアの方がね。

ほんとねこれねほんとどっちに転ぶかっていう話でまあなんかねほんと炎上してるときはねどんどんなんか勝手に中国の方で人が投入されて

この人誰ですかみたいないつの間にプロジェクト入ってたんですかみたいな

これあれじゃない?近いオフショアの闇やる

ちょっとやっていきたいねそれを

無限に聞かされちゃうよ

確かに確かに

まあそういうのを乗り越えていくね

そうだねまあでもそんな感じでプロジェクトの規模がでかくなっていくみたいな感じかな

でデータサイエンスっていう観点でいうと

この段階でちゃんとデータを改めて受け取り直して

データウェアハウスから受け取ってエクセルじゃなくてもらうとかそういうのになってくると

でなんかこれ言ってた話と違わないみたいなデータがあったり

確かに

これだとPOCでやってた分析できませんよねみたいなデータが来たりするので

その辺の詳細をお客さんと詰めるところもそのSEというかデータサイエンスの人がバックグラウンドチームとしてやるみたいなのがあって

だからちょっと実はこのフェーズでもデータサイエンス重要なんですよとかね

そうだねいや難しいよなあそこらへん

ちょっと最後のトピックでこれもちょっと軽いけどどういう技術使ってたかとかいうところかな

特にAIチームというかデータサイエンティストが入ってるチームとかだと

PythonとかRとかっていう話だと思うんだけど

そうねやっぱりライブラリーが充実するから言語あるよね

なんか得意な人がね得意なもので書いちゃう説があって

あるねR派閥の人がねRで生きる仕上げるとかね

あるあるでデータサイエンティストの人って結構R使う人もまあいて

PoCってそれ書かれてるとそれでそのままやっちゃうとかもあるんで

確かに確かに

ただこう論文書くとかPoCRとかで一つのプロジェクト

プロジェクトって言うとあれかな一つのパッケージみたいなやつで

書くにはRって書きやすくて見やすくていいんだけど

システムに落とし込むのってちょっと

そうねノーバル数の問題とか怖くて

絶対パスの使いづらいしみたいなとかいろんな問題があるので

個人的にはまだPythonの方がいいかなと思ってますが

問題が混在してることでなんか混在するのを

サブリーダー的にまとめたりもしてたので

18:03

あれだねここが共通で同じ設定ファイルを使えるように

両方のライブラリーを軽く作りましたみたいなそんな話が起きたり

やっぱりそこをSE的にやっていくっていう話と

データサイエンスで言うと結構古典的な統計分析が多いよね

ロジスティック回帰とかさ

SVMぐらいでできるんだったらサポートマシンとかでできるんだったら

それが一番いいっていう

なるほどね技術先行にはしないっていう感じなのかな

家庭としてはやる比べてみていいならやるし

それで比べてみたことによって知見がたまるじゃんね

推奨されてたそれはとてもいいことだと思う

なるほど了解です

GBMとか結構硬いものも多いけど

本社で作ってるディープラーニングのやつ

ブラックボックス的だけど

モデル作って割といい精度で返してくれるものとかで

言語処理とかやってたから

前処理とかの経験は詰めたけど

自然言語処理の肝でディープラーニングのところは割れ投げだった

確かにちょっとブラックボックスになってたのかな

裸見てる分にはね

それのおかげで割とスピード感あって作れるとか

良し悪しはあるので結構バランスを見てやれてたかなと思いますね

ちょっと今日はっていうか今回はこれくらいにしておきましょうか

白熱してきたけどまたちょっと細かいトピックの部分はそれに分けて話せたらいいかなと思うんで

ありがとうございました

お疲れ様です

スター

try catch

スター

コメント

こちらもおすすめ