2021-01-24 20:08

SIerのデータサイエンティストのお仕事とは?


クライアントのデータを受領して分析するSIerのデータサイエンティストの仕事について話してみます。

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.
00:05
みなさん、こんにちは。TRY-CATCH FMの第2回目を始めていきます。よろしくお願いします。
今日のテーマとして考えているのは、SIRのデータサイエンティストの仕事とは?というテーマで、
僕ら二人、元々、KOSDAは今も働いているけど、SIRの会社に入って働いていたわけですけど、
一般的にTwitterとか、KITとかのブログとかでバズったりするような記事のデータサイエンティストって、
ウェブ系なことが多いなっていう印象はある?
そういう意味では、SIRのデータサイエンティスト、彼らをデータサイエンティストと呼ぶのかどうかという話を置いておいて、
データ分析、機械学習とか、ディプランニングとかしている人とかいるわけじゃないですか。
KOSDAもそれに近い仕事をしていたよね。
それ実際、ウェブ系と違ってどういう実態になっているのかみたいなところを話していければなと思っております。
まず一番最初のトピックとしては、ちょっと軽く説明をしてもらいたいんだけど、
一緒に俺らプロジェクトをやっていたから、何となくはちょっと分かっているような気もするけど、
改めて聞いてみたくて、どういうプロジェクトをやっていたの?
僕とみやんちは結構一緒のところにいたけど、
ヘルスケアとか、ライフサイエンスみたいなところでよくプロジェクトをやっていて、
製薬とか病院のところのお客さんの売り上げとか、
社員さんの活動の分析とか、みたいなことをやってたよね。
で、手動に活かしてフィードバックをもらって、また次のレコメントとかそういうのに活かすっていうようなことをやってたよね。
そうだね。なかなかしんどいプロジェクトだったよね。
フェイスによってアップダウンがすごかったりね。
そうね。この後はもうちょっと深掘りしていこうと思うけど、やっぱりSIR独特の辛さとかってあるよね、多分。
お客さんからの受注の仕方とか、なんかデータがもらえないで何もできない時期とか。
そう、データもらえない時の分析してくださいっていう。
03:02
すごいNQさんかな、みたいな。
そうそう、これあるあるだよ。
ね。
ちょっとそういう、なんでそういう状況に陥るのかみたいなところも含めて、
次のトピックはプロジェクトの運び方っていうところで、何にきっかけでプロジェクトを発足して、
どういうフェーズを経てどう仕上がっていくのかみたいなところをちょっと話していければいいかなと思うんだけど、
一番最初はもちろんSIRというか受託してる身なんで提案をするんだよね。
そうね、ITコンサル的な側面が強いからね。
それって営業が提案するのか、コンサルが提案するのか、データサイエンティストが提案するのかとか、
いろんな職種の人がいるけど、そこら辺ってどうなってんのかな。
正直全パターンあったよね。
営業の人、でも営業よりはコンサルとデータサイエンティストが多かったかな。
営業の人が中の人とつなぎとか、コミュニケーションとか戦略的なこの人とのつなぎみたいなところを頑張ってくれて、
コアな部分はコンサルとか、それプラスデータサイエンスできる人とかがやるって感じだよね。
なんか俺の理解では、パッケージ製品とか売るときは営業が結構いってるみたいな。
例えばクラウドとか分析ツールとか、BIとか入れましょうみたいな提案は営業がしていて、
スクラッチ系、例えばデータウェアハウス構築しましょうとか、それこそ分析モデル立てて営業効率化しましょうみたいなやつは、
コンサルとかデータサイエンティストとか、それぞれのエキスパートが提案してるのかなみたいな感じかな。
まだ名前がないものを作っていくのは、その人たちで。
まあその分ね、ちょっと炎上のリスクもあるけどな。
ノウハウもたまるし、それがパッケージになったりするから。
まあそうね、確かに確かに。それでお客さんから一緒にやりましょうってなって、
プロジェクトが一番最初のプロジェクト、フェーズ0とかフェーズ1とかが始まるのかな。
そこが肝だよね。
まあいわゆるPOCって呼ばれてる、日本語に直すと、何だ、仮説検証、効果検証、違うな、概念検証か、プルフォームコンセプトだか。
そうだね、そんな感じだと思う。
まあそこで多分実際に使えそうなデータとかを集めるの?
そうだね、なんか最初にこんなことをすると音者はいいですよねっていう提案をある程度多くしてるはずで。
仮説ベースでね。
そうそう、でそれを実現するためにはこういう切り口ができるんじゃないかっていうので、
06:03
まあただの、ただのって言ったらあれだけど、既存のIT、古くからのITみたいなものでインテグレーションしていくのでできるならいいんだけど、
どっちかっていうと大量のデータがあるので、それで継続的に改善しながら分析で良くしていきましょうみたいな。
アップするとかもできるし、みたいなものをやることにデータサイエンスが活躍するよね。
そうね、結構AI系とかデータサイエンス系の案件でPOCが多いよね。
やってみないとわからないからね。
まあそうそう、そこコミットできないんだな、この制度の。
何パーセント出しますみたいな。
できないからね。
逆に国側から見てもね、私見てるからわからないから、でもPOCならちょっとやってみれる額だし、
まあ確かに。
上に言いやすいって言うのね。
確かに確かに。
てかまあAIでPOCしますって結構その社内の倫理とか通りやすいのかな、知らんけど。
そうだね、でそこで実績を作ってしまったら前回これだけの効果が出ましたよね。
だから通じませんっていうのは言いやすくなるし。
まあそのPOCで終わるプロジェクトも多い反面、そこを乗り越えたらみたいなところが結構キーポイントなのかな。
だからPOCを乗り換えるためのあらゆるノウハウをしっかりとするよね。
まあ確かに確かに。
どういうことをしてた?
えーっと、まあ俺がいたチームはあれだね、単純にExcel、PowerPoだけで納品するんじゃなくて、
簡単な管理画面というかダッシュボードを作って、ここからポチポチフィードバックすればさらに改善していきますよみたいなのを、
まあちょっとその社内の乗務フローの一つに組み込んでもらうとか、
いうのが結構大事というか、チームとしてアプリは作ろうみたいな、イケてるUIでアプリを作ろうみたいなやつはやってたかな。
えー、それ実はかなり大事だよね。
まあね。
キャッチーってのもそうだし、もう使い始めてるから、なんかじゃあこのまま作っちゃったら、
そうそう、次のフェーズで、例えばこの管理画面の次のページを作りましょうとか、
まあそういうことの提案もしやすいみたいなところはあるんだよね、多分。
そう、なんか初めてのもの、特にAIのとかって、どんなのになるんだろうってのがわからないから、
そうそうそう。
で、そういうのがあったりとか、そういうのがあったりとか、
しかもこれめっちゃ綺麗で使いやすくて今風だねってなったら、
もう結構採用は目の前っていう特徴があるけど。
確かに確かに。
まあジョームに組み込むっていうのはね、AIをジョームに組み込むっていうのは結構大事なのかな。
データありきだし、フィードバックもらって改善がやっぱ大事だからね。
そうだね。
で、ちょっと話を戻して、そのPoCが無事、例えばいい結果になりましたねみたいな話になって、
09:06
そしたら多分本番の、本番っていうか、もっと規模の大きい、
例えば一つの視点で、一つの視点で、一つの視点で、一つの視点で、
一つの視点で、一つの視点で、一つの視点で、一つの視点で、一つの視点で、
例えば一つの視点だけでのデータじゃなくて、
全国の視点でのデータでやってみましょうとか、
そういった次のフェーズのプロジェクト、フェーズ2とか3とかっていう方向になっていく感じかね。
基本的にね。
そこで割とちゃんとクラウド環境とかサーバー負荷がみたいな話と同時に何千人ですみたいなのになって。
確かに確かに。
そこでデータサイエンスのみみたいなプロジェクトから、データサイエンスも組みつつ、
SEとかIT側のプロジェクトになるよね。
それこそデータ連携どうしますかみたいなデータ基盤的な話も出てくると思うし、なかなか規模が多くなってますよ。
分析の効率みたいなものもね。
そこそこのデータ量に対して今までデータサイエンスの人が精度を求めて組んでくれてるから、
SE的に見るとちょっとコードがあれだよねみたいな。
確かに。
あるのでそこをちゃんと拡大されたとき、拡張されたときの考えつつ、サーバー負荷とかメモリ負荷考えて、
オブジェクト仕込みまでやるかっていう話もあるけど、ちゃんとコードの再利用とか拡張性とか。
確かに確かに。
結構そこからSE的なもの部分が大事になるよね。
確かに確かに。
規模が大きくなったっていうときの話で、メンバーとかも変わってくると思うんだけど、
例えば最初のPOCフェーズからどんどん規模が大きくなっていったときのメンバー構成ってどうなっていくのかなっていうとこちょっと話したくて。
例えば最初のPOCフェーズだと何人くらい?普通に3,4人?2,3人とかそんなレベル?
そんなもんだよね。PMがいて、データサイエンティストは1人とかにやったりするよね。
確かに確かに。
手がちゃんと動く良い人いませんかみたいな。
お客さんとも話せるみたいな感じかな。
ほぼコンサルもやってるよね。
そうね。
12:00
Powerpoint作ったりするし。
で、あと1人アプリケーションデベロッパーがいるみたいな、ダッシュボード開発要員がいるみたいな感じかな。
やはり宮地がいるってことですね。
俺はどっちかっていうとそういう、もはやダッシュボードというかプロトタイプ?
例えばスケッチとかFigmaみたいなデザインツールで機械学習の結果がアプリ上に反映されますよみたいなイメージを作ってあげたり。
データを受け取ってちゃんとそれを画面に表示するまではやってたもんね。
そうねそうね。
でもJSONハードコードとか全然してたよ。
たまに開発中に見つかっておっとって出てくるからもらえみたいな。
それはちょっとね。
でも最初のPOCだからね、コストはできるだけかけずっていうところでやっていく感じかな。
でもすげー綺麗に作ってたもんね。
あれはめちゃめちゃ貢献してたよ。
あれあれでも社内アセットみたいなのあって一応はダッシュボード。
社内OSSみたいなやつあって。
そうそうそうそう。
それ使ったりね。
結構楽にできたりするんで。
それぞれが自分の仕事っていうのをチームごとに一人って感じでやっていくのが最初のPOC段階だよね。
そうだねそうだね。
でそこからPOCOKってなっていえば大きくなってくるとある程度チームに分かれる感じかな。
そうだね。一チームには3人とかになっていくのかな。
リーダープラス1人か2人みたいな感じで開発が。
もう最初のリリースまではその人数で結構いっちゃうもんね。
フェーズ1とかそんな感じかな確かに。
どんなチームがあったかな。
まあでもデータチーム?AIチーム?何て言うかわからないけど。
バックグラウンド&データサイエンスみたいなチームがあって。
あとアプリチームがあって。
インフラチーム?
インフラチームがあって。
データ基盤を中心にいろいろ見てくれる。
公的に見てくれる。
データウェアハウスを見るチームみたいなね。
そうだね。インターフェースみたいなね。
別のこと言うか。
とかじゃない?それプラスPMとかクライアントの報告する人がいて。
会議とかに行って調整する。
やっかいなのが、アプリチームとかは海外にいるんですよね。
オフショア。
15:02
でも、やっかいなのが、アプリチームとかは海外にいるんですよね。
オフショアの方がね。
ほんとねこれねほんとどっちに転ぶかっていう話で まあなんかねほんと炎上してるときはねどんどんなんか勝手に中国の方で人が投入されて
この人誰ですかみたいな いつの間にプロジェクト入ってたんですかみたいな
これあれじゃない?近いオフショアの闇やる
ちょっとやっていきたいねそれを
無限に聞かされちゃうよ
確かに確かに
まあそういうのを乗り越えていくね
そうだねまあでもそんな感じでプロジェクトの規模がでかくなっていくみたいな感じかな
でデータサイエンスっていう観点でいうと
この段階でちゃんとデータを改めて受け取り直して
データウェアハウスから受け取ってエクセルじゃなくてもらうとかそういうのになってくると
でなんかこれ言ってた話と違わないみたいなデータがあったり
確かに
これだとPOCでやってた分析できませんよねみたいなデータが来たりするので
その辺の詳細をお客さんと詰めるところもそのSEというかデータサイエンスの人がバックグラウンドチームとしてやるみたいなのがあって
だからちょっと実はこのフェーズでもデータサイエンス重要なんですよとかね
そうだねいや難しいよなあそこらへん
ちょっと最後のトピックでこれもちょっと軽いけどどういう技術使ってたかとかいうところかな
特にAIチームというかデータサイエンティストが入ってるチームとかだと
PythonとかRとかっていう話だと思うんだけど
そうねやっぱりライブラリーが充実するから言語あるよね
なんか得意な人がね得意なもので書いちゃう説があって
あるねR派閥の人がねRで生きる仕上げるとかね
あるあるでデータサイエンティストの人って結構R使う人もまあいて
PoCってそれ書かれてるとそれでそのままやっちゃうとかもあるんで
確かに確かに
ただこう論文書くとかPoCRとかで一つのプロジェクト
プロジェクトって言うとあれかな一つのパッケージみたいなやつで
書くにはRって書きやすくて見やすくていいんだけど
システムに落とし込むのってちょっと
そうねノーバル数の問題とか怖くて
絶対パスの使いづらいしみたいなとかいろんな問題があるので
個人的にはまだPythonの方がいいかなと思ってますが
問題が混在してることでなんか混在するのを
サブリーダー的にまとめたりもしてたので
18:03
あれだねここが共通で同じ設定ファイルを使えるように
両方のライブラリーを軽く作りましたみたいなそんな話が起きたり
やっぱりそこをSE的にやっていくっていう話と
データサイエンスで言うと結構古典的な統計分析が多いよね
ロジスティック回帰とかさ
SVMぐらいでできるんだったらサポートマシンとかでできるんだったら
それが一番いいっていう
なるほどね技術先行にはしないっていう感じなのかな
家庭としてはやる比べてみていいならやるし
それで比べてみたことによって知見がたまるじゃんね
推奨されてたそれはとてもいいことだと思う
なるほど了解です
GBMとか結構硬いものも多いけど
本社で作ってるディープラーニングのやつ
ブラックボックス的だけど
モデル作って割といい精度で返してくれるものとかで
言語処理とかやってたから
前処理とかの経験は詰めたけど
自然言語処理の肝でディープラーニングのところは割れ投げだった
確かにちょっとブラックボックスになってたのかな
裸見てる分にはね
それのおかげで割とスピード感あって作れるとか
良し悪しはあるので結構バランスを見てやれてたかなと思いますね
ちょっと今日はっていうか今回はこれくらいにしておきましょうか
白熱してきたけどまたちょっと細かいトピックの部分はそれに分けて話せたらいいかなと思うんで
ありがとうございました
お疲れ様です
20:08

コメント

スクロール