1. となりのデータ分析屋さん
  2. 36. Kaggle Grandmaster登場!..
2023-11-01 43:53

36. Kaggle Grandmaster登場!大手からスタートアップへ行くデータサイエンティスト【LayerX島越】【DeNA】

機械学習のコンペティションKaggleの世界トップの称号Grandmasterで、現在LayerXの機械学習エンジニアの島越さん登場!

大手DeNAからスタートアップLayerXへ転職したAIのスペシャリストに根掘り葉掘り聞いてます。

番組の感想や、質問はTwitterハッシュタグ「⁠⁠⁠#となりの分析屋⁠⁠⁠」もしくは、以下おたよりフォームからお寄せください! ⁠⁠⁠⁠⁠https://forms.gle/K81TcsyiP5Dpk8fz7⁠⁠⁠⁠⁠

=========================

▼ゲスト:島越 直人さん X⁠⁠⁠⁠⁠⁠⁠⁠アカウントはコチラ:https://twitter.com/nt_4o54 LayerX カジュアル面談ページはこちら:https://jobs.layerx.co.jp/opendoor

========================= ▼りょっち Spotify独占配信Podcast「⁠⁠⁠⁠⁠佐々木亮の宇宙ばなし⁠⁠⁠⁠⁠」はこちら! X (⁠⁠⁠⁠⁠⁠⁠⁠@_ryo_sasaki⁠⁠⁠⁠⁠⁠⁠⁠) Instagram (⁠@ryo_astro⁠⁠⁠⁠⁠)

▼たっちゃん X (⁠⁠⁠@⁠⁠⁠⁠⁠tatsuki_2022⁠⁠⁠⁠⁠⁠⁠⁠⁠)

========================= ▼要約 by ⁠⁠⁠⁠Summary fm⁠⁠⁠⁠ このポッドキャストでは、機械学習エンジニアでKaggleのグランドマスターである島越さんがゲストとして登場しました。島越さんはKaggleの攻略法やデータ分析のキャリアについて話しています。彼はKaggleのコンペティションで優れた成績を収め、グランドマスター称号を獲得しています。また、島越さんは自身の経験やKaggleのコミュニティについても語っており、データ分析のキャリアに興味のある人にとって興味深い内容です。このエピソードを聞くことで、機械学習についての洞察やKaggleの活用方法について学ぶことができます。興味のある方は、ぜひこのエピソードを聞いてみてください。

=========================

Youtubuチャンネル「となりのデータ分析屋さん」も公開中

⁠https://www.youtube.com/@tonari-no-data


web3 x データサイエンスメディア「⁠⁠⁠⁠⁠⁠Fungible Analyst⁠⁠⁠⁠⁠⁠」はこちら!

⁠http://fungibleanalyst.com/

サマリー

Kaggle GrandmasterであるLayerXの機械学習エンジニアの島越さんがゲストとして出演し、Kaggleの攻略法やKaggleの成績について話されています。彼らはKaggleのプラットフォーム上で与えられたデータを用いてモデルを作成するデータサイエンティストの仕事について話し合っています。また、実務とコンペの違いや、エッジケースに注力するか多数派に集中するかなど、データサイエンスの戦略についても探求しています。彼らはAI技術の進歩とそのマーケティングへの影響を考えながら、データサイエンティストとしての存在価値について話し合っています。データサイエンティストはあなたにとって21世紀最もクールな仕事だと思われますか?セクシーな仕事だと思います。セクシーなイメージがありますか?セクシーとは感じませんね。

Kaggle Grandmaster登場
ボケ損ねた。ボケ損ねたー。
どうまい。
元同じチームのメンバー、元同じ会社の人が来たから、ボケ損ねたー。
どうまい。大物だったね。
超超大物。
Kaggle Grandmaster登場。
ということで、LayerX。で、LayerX入る前の会社が、僕と同じで僕と同じチームで働いていた、Kaggle Grandmasterの島越さんをゲストに。
Kaggle Grandmasterとは、Kaggleの攻略法とは、そして、Kaggleがガンガン伸びた後のネクストキャリアとは、みたいなところかな。
Kaggle、これからやりたいっていう人には絶対聞いた方がいいかなと思います。
確かに。参考にしていいレベル感の人なの。
参考にしていい話がいっぱいあったなと思ってて。
いきなりコンペに現れて一個モデル上げて一刀両断バシーンみたいなタイプじゃないからこそってことね。
もうこれが大事っていうコツを教えてくれてたから、勉強になった。めちゃめちゃ勉強になった。
またタッチャーにとっていいゲスト僕呼べました?
Kaggleの攻略法
僕のファンがまた一人増えました。
よかった。ポッドキャストそういう使い方してこ。
ということで、じゃあ今回はKaggle GrandmasterでLayerXの機械学習エンジニアの島越さんをゲストに色々話聞いてます。
それではどうぞ。
隣のデータ分析屋さん。
この番組は隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁをかなえるポッドキャストチャンネルです。
データアナリストのりょっちです。
データサイエンディストのタッチャンです。
スペシャルゲスト。
今回もゲスト会となってます。
これで僕の職場がどこかバレると言っても過言ではないゲストを呼んでおります。
ということで早速呼び込みましょうか。
Kaggle GrandmasterでLayerXで機械学習エンジニアをやっている島越さんに来ていただきました。よろしくお願いします。
よろしくお願いします。
よろしくお願いします。
そんな感じなんですね。
こんな感じです。
島越さんの所属がまだバレてなかったのか。
一応言ってはいなかったけど、結局外でちょっと講演するときとかに会社名も最近出してるんで、そのうちバレるだろうなと思いながらやってます。
ということで島越さん、Kaggle GrandmasterっていうKaggleのデータコンテ、最高峰の称号を持っている方なんで、今回はKaggleの話を聞いていこうかなと思いつつ、なぜこんなKaggleのトッププレイヤーがこの番組に来てくれたかと。
島越さんの前職の時に同じチームで働いてたっていう感じなんですよね。お久しぶりです。
そうですね、お久しぶりです。まさかのさっき同い年っていうことが判明してる。
そう、何回か飲みに行ってるはずなんですけど。だから僕も今日喋るのが5ヶ月ぶりとか、退職したタイミングからは喋ってなかったんで。
Kaggleのグランドマスターって何ですか?
Kaggleのグランドマスターっていうのは、Kaggleっていうのは皆さんご存知っていう体でもう喋って大丈夫なんですかね。
一応なんかそういうデータ分析、機械学習のコンペティションみたいなのがあるんですけど、企業が皆さんお題を出し合って、そこに対して世界中のデータサイエンティストが精度を競うみたいなコンペティションがあるんですけど、
その成績に応じてメダルがもらえるんですよね。賞金とかメダルとかがもらえて、例えばトップ10%だったら銅メダルがもらえますとか、トップ1%だったら銀メダルがもらえますみたいなのがあって、
トップ0.1%だったっけな、とかが確か金メダルをもらえるんですけど、なんで1000人参加してたら10人が金メダルをもらえますみたいな感じのシステムがあって、
その金メダルを5枚集めて、プラスその5枚のうち1つはソロで参加して金メダルを取らなきゃいけないっていうので、グランドマスターっていう、それでようやくグランドマスターっていう称号が取れますっていう感じなんですね。
4枚まではチーム参加、チームで参加して金メダル取ってもいいけど、1枚は1人で参加して取らなきゃダメみたいなのがあって、それが結構難しいみたいなところなんですけど、それをやるとようやく、カグラの中では最高位なんですけど、グランドマスターっていう称号を手に入れることができますみたいな感じなんですよね。
Kaggleの成績とネクストキャリア
そういうことなんだ。
なんか思ってたよりやっぱすげえんだなって思ったな今。
めちゃめちゃすごいですよ。
最近日本人の方でめちゃくちゃグランドマスター増えてきてるんで。
あ、そうなんですか。
そうなんですけど、4,50人ぐらいいるんじゃないですかね今も。
あ、俺なんか20人ぐらいっていう聞いてたところで止まってましたね。
たぶん1年前、2年前とかだったら2,30人とかだったんですけども、結構50人弱とかまでいってるんじゃないですかね。
最近カグラの日本人参加率がすごく多くて、なんかコンペティションが終わるたんびにグランドマスター誕生っていうのがポンポンニュースになってますよね。
そうですよね。
結構やっぱりコミュニティとしても日本活発なんで、カグルの本とか出てたりとか、
結構コミュニティでこの間も関東カグラ会っていうオブラインのイベントがあったりしたんですけど、
そういうところで結構人が集まったりとか学び場みたいなのが他の国より多いのかもしれないですよね。
それで結構モチベーションを持ってやられる方とか。
あとはDNAもそうですけどカグル制度とかを出してる会社さんとかもあるんで、
そういうのでやっぱりキャリアにつながるんだって言って始める方とかもいらっしゃるかもしれないですね。
あれ島越さんもDNAのカグル制度の中でグランドマスターになったって感じですか?
僕の時はまだカグル制度なかったんですよね。新卒採用受けてるとき、面接してる時とかは。
あ、そうなんだ。
だいたい新卒採用って1年前とか19年入社なんですけど僕は。
17年とかに終わるじゃないですか。17、18の時になって。
僕が入社、18かな?とかに終わって、入る直前ぐらいにカグル制度始めましたみたいなニュースが出たんで。
だから僕が入る前はそういうのなかった。僕が面接してる時とかそういうのなかった。
あ、でもデータサイエンティストとして入ることは決まってたみたいな感じですか?
あ、そうですね。データサイエンティスト、その時はなんかもっと幅が広かったかな。
機械学習エンジニアかなんかそういう感じで入ることになってた。
ああ、そういうことか。
え、機械学習エンジニアとデータサイエンティストだと機械学習エンジニアの方がちょっと幅は広い印象ですか?
僕、まあなんか結構各社様々なんですけど。僕の中ではそういう印象ですね。
ちょっとなんかエンジニアリング的なところもちゃんとやって、データサイエンティストはよりモデリング特化とか分析特化とか
そっちのサイエンスの方に特化してる職業っていうイメージですかね。
ちなみに今どこの領域というかデータ分析が強いんですか?画像だったり自然言語だったり構造化データだったりっていうと。
僕は結構カグルとかでもわりと新しいデータを触るのが好きで、
あとは今までやったことないこととか学び目的とかで出ることが多かったんで、結構画像コンペにも出るし自然言語のコンペにも出るし、
そういう構造化データ、テーブル系のコンペにも出るしって感じなので、結構均等っていう感じですね個人的には。
ただ実務では結構構造化データで、構造化データを扱った業務とかが多かったんで、
ちゃんとシステムとか作って届けるっていうところで言うと、構造化データの方が経験は多いかなっていう感じですね。
すごいな。
ジェネラリスト的な感じもあるってことだ。データ再現とか。
そうですね。今まで触ったデータは本当に結構様々ですね。位置情報データとかも触ってましたし、
結構そういう本当にいろんなデータ触って、結構今の時代ってどんどんマルチモーダル化してってると思ってて、
そういうところでやっぱいろんなデータドメイン触れるっていうのも結構重要かなって思って、そういう感じの参加の仕方をしてたっていう部分もありますね。
DNAのかぐる精度でやっぱ時間取れる状態になったのって結構デカかったですか?
あれは結構デカいと思いますね、やっぱり。
あれですよね、業務時間の中の何割かをかぐるに取り組んでいていいっていう精度ですもんね。
そうですね。なんでも本当に残り1週間とかのタイミングではちょっとこのスプリントはかぐるで、普段20%使ってないからつって。
そんな感じで結構許してもらえるような環境でもあったんで、そういう環境はありがたかったです。
そうなんですね、なんか外から見るとDNAのかぐる精度って結構時間取っていいんだなっていう噂ベースでは聞いてますけど、
実態としても本当に20%ちゃんと取れるし、かぐるって正直追い込まれてなんぼで徹夜しまくって最後の日迎えるっていうのがあると思うんですけど、
そこに時間をがっつり使ったりもできたりするんですね。
そうですね、正直普段からがっつり20%取ってはないんですけど、やっぱ終盤とかは結構大変なんで、
そこでは20%使わせてくださいみたいな感じにはなってたかなという、個人的にはって感じです。
たっちゃんは出たことあるんだよね、かぐるはね。
ありますあります。グランドマスターの足元にも及ばないレベルではありますけど、
でもしまこしさんのかぐるのマイページというか、どういう結果を今まで出したかって見れるんですけど、
それを見てみると、Googleのスマートフォンチャレンジ、GPSを使って位置精度を高めるみたいなコンテがあって、
そこでしまこしさん、金メダル取ってますけど、僕これが初めてのかぐるチャレンジで、
その時にこれ銀メダルを取れたんですけど、僕は。
あ、そうなんだ。
でもまあ、そこの上にいた方なんだなっていうのを今知りましたね。
同じの出てたってなんかすごいね。しかも順位出るの残酷だよね。
結構多いですね。日本人めっちゃサンクするから。
あ、あれ出てたんだみたいになるんですね。
カンファレンスとかで会うと。
いやもう、ていうかもうあの人だよねみたいなのがだいたいわかるね、アイコンみたいな。
あ、そっか、アイコンがあるんだ。
しまこしさんは後姿のアイコンで全部言ってるんですか?
もうあれで認知されちゃってるから変えるに変えれなくて困った。
コンペに佇む。
そのコンペに参加するかどうかを見るときに、やっぱりリーダーボード、そのタイミングの上の順位が見れるんですけど、
そこのアイコン見て、あ、この人参加してるからきっと質のいいコンペなんだろうなみたいなのを判断して、
そのコンペに参加するかどうかをチェックするっていうのをやったりしますね。
これ結構あるあるですよね。
ありますね結構やっぱり。
じゃあ、その人を倒しに行くぐらいの気持ちで入っていくパターンもあるんですか?
それもあると思うし、絶対叶わないから入らないもあるんじゃないですかね。
あーそういうことか。
あると思いますね。なんか残り1ヶ月とかで参加しようと思って、上で結構もう強い人が固まってたら、今からやって間に合うかなみたいな気持ちになったりしますね。
あー、でもどっちかっていうと思われる側なんじゃないですか?
いやどうなんですかね。
間違いない。
Kaggleプラットフォームでのデータサイエンティストの働き
僕結構終盤にバーってやるタイプなんで。
うわーやだーそれ、自分が。よしなんかあんまり競合も来ないけどいい感じの感じだなーと思ってたら。
序盤とかちょっとずつやって、残り1ヶ月とか2週間とかで追い込みかけるタイプなんで。
あ、人によって違うんですね。
多分結構やり方違うと思います。なんか最初ら辺に出しとかないととりあえずやる気を保てないんで僕は。
最初に出しておくは出しておいて、なんかその動向とかを追いつつ裏でちょっとずつ実験するみたいな。
あー。
みたいなことをしてまぁのんびりやりつつ、ラスト2週間とかになって本気出し始めるみたいな。
へー。
みたいな感じになりますね。
じゃあちょっとせっかくなんでそこら辺の話ちょっと深掘って聞いてもいいですか?
あ、大丈夫ですよ。
なんかKaggleってそのKaggleのプラットフォーム上でデータとか与えられて、計算のリソースも全部Kaggleの方で用意されてるじゃないですか。
島越さんって自分のなんかこう分析環境とかどういう風に作ってたりしていますか?
一応なんかあの推論環境とかはKaggleのやつ使わなきゃダメなコンプとかあるんですけど、訓練とかを行う環境は全然自前のもので大丈夫なんで、
僕の場合はあのDNAがクラウド費用を補助してくれたんで、GCPで環境を作って、それでモデル作ってました。
うわ、強いなそれめっちゃ。
それは結構ありがたかったですねやっぱり。
あれめっちゃいいって聞きますよね。
うん、あれないと無理ですね。
学習するのにストレスないくらいお金使っていいような環境だったんですか?
そんなめちゃくちゃは使っちゃダメですけど、月20万とかですね。
おお、でかいですねそれは。
個人で月20万無理だもんな。
ずっとGPUとか使ってたら結構すぐ行きますよやっぱ。
ああそうなんですね。なんか作業時間の話ばっかり、その工数何割使っていいとかっていうKaggleの枠の話出るけど、
サーバー代補助してくれるみたいな話ってあんまり知られてないのかもしれないですね。
確かにそうかもしれないですね。
知らなかった。結果出すってなったらそこが結構でかいですからね。
計算リソースどれだけ取れるかっていうところが一つポイントになってくる。
地道にちゃんとやってれば、ちょっとしたGPU環境でも大丈夫なんですけど、僕の場合結構追い込み型なんで、最後ら辺に複数実験回したりするとやっぱり結構リソースがかかるみたいなのあったりしますね。
ああそういうことか。
しばこさん夏休みの宿題とか最後までやんないタイプなんですか?
ああ最後までやんなかったですね。
ああじゃあそういうことなんだ。
最後にはやり切るんですよね。やらない時もあったんですか?
やらない時もありましたね。
結構反抗的な生徒だったんで、なんか数学とかもドリルみたいな渡されるじゃないですか。
なんかもうこれ解けるからスキップって書いて。
難しい問題だけ解いて提出して、でも数学の先生は優しかったからいいよって言ってくれましたけど。
それはもう明らかにできそうなのが分かってたんじゃないですか。
いやいいなあそれ。証明せよって書いてあって自名って書いて出すみたいな。
そうみたいな感じ。
いやいいなあそれ。やればよかった俺も。
データ解析におけるリソースの活用
こういうエピソードを作るべきだったなあ。
いきなりグランドマスターにはなれない。
だってたっちゃんも一応シルバーメダルは取ってるわけでしょ?そこで。
はいはい。
そこからさっき言った、島越さん言ってくれたみたいに金メダルをめちゃめちゃ積み重ねていかなきゃいけないフェーズが出てくるってなると結構時間かかるんじゃないですか?
そうなんすかね。なんか僕も最初は銅メダルとかしか取れなくて。
学生時代とかは銅メダルしか取れなくて。
DNA入って銀メダル最初1年目とかで取れるようになって。
1年目の最後に同期でチーム組んで出たやつで初めて金メダル取ったみたいな感じなんですよね。
で、なんか1回金メダル取るとやっぱりどれくらい、こんだけやったら金メダル取れるなみたいな。
リソースをどれくらいかけたら金メダル取れるなみたいなのが大体わかってきて、上位の人はやっぱこれくらいやってんだみたいな。
だから今まで全然時間注げてなかったなみたいなのが大体わかってくるんですよね。
だからそこからは逆算でこれくらい注がないと無理だっていうのでやっていくうちに金メダル取れるようになってきたみたいな感じですね。
そこなんだ。じゃあもう注ぐ時間と熱量が結構比例するというか。
やっぱ基本的に注いでも無理な時もあるとは思うんですけれども。
あと全然シュッてやって1サブで金メダルとか取ってるみたいなヤバい人もいたりしますけど。
基本的に自分の場合は、しかも結構今までやったことないコンペとかに出ることが多いんで。
やっぱ時間リソースをかけないと無理だなっていう感じではありますね。
最終的な勉強の目的が強いってなるとそうなるんですよね。
やったことあるやつとかで大体解き方あれだろうなみたいなやつとかあったらもうちょっとリソースかけなくても多分いけるんですけど。
じゃあ戦略的にグランドマスターになるっていうのだともっと短い道筋でいけたかもしれないっていうのはあるんですね。
どうなんですかね。でも結構1回金メダル取ってからは、そっからは多分参加したやつほぼ金メダルみたいな感じだった。
結構コスパ良くそっからはなった感じですよ。
強いですね。それはコツみたいなのを掴んだんですか?
やっぱさっき言ったリソースをかけるっていうのと、
やっぱあとはなんかコツで言うと何でしょうね。
なんかあるのかな。やっぱデータをめっちゃ見るとか可視化めっちゃするとか、
常に自問自答をしまくるみたいな感じのことをずっとやってますね。
予測できないサンプルとか見て、これが予測できるようになるためにはどういう情報が必要なんだっけみたいな。
じゃあこういう情報を入れたら解けるようになるかなみたいなとか、
元々のデータってどういう過程で生成されたデータなんだっけみたいな。
そのデータの事前分布みたいなのがどういうところから発生しているのかみたいなのを考えて、
逆算的にやるとか。
それだ。
俺一緒のチームいて、しまこしさんのモデル作る前の分析のスピードすごって思うとき何回もあって、
絶対そこで培ったものな気がするな。
それは結構かぐるで培ったものな気がしますね。
モデルを作る前の分析っていうのは、実際に機械学習のAIモデルを組むんじゃなくて、
今これから使おうとしているデータがどんなデータなのかっていうのを明らかにするっていう分析の話ですよね。
そうですね。あとは実務でだとやっぱりどういうデータを作ったらいいのかとかっていう話もあるんで、
実際やっぱデータ見てからやらないとダメだよねみたいなのもありますね。
しまこしさんベースの分析マジ早い。
実務とコンペの違いと戦略
俺が見てた印象だと、
次の週に持ってくる、こういうとこまで分かってみたいなのが、
俺見たら先週までそこ分かってなかった気がするのにっていうところがバーって進んで持ってくるイメージがあって、
すごい。
かぐると実務で違うなって思うのは、結局あれはコンペなんで、
実務とかだとエッジケースとか、コールドスタートなユーザーとかどうするっけみたいな、そういうところを結構考えたりしないとダメだと思うんですけど、
結局コンペって全員サンプルでの平均的なスコアみたいなのを見られるんで、
どっちかっていうと少数のエッジケースを救うっていうより多数の統計的に救えそうな人たちをいっぱい救うっていう方が、
スコアとしては伸びるんで、あんまエッジケース気にしすぎても意味ないなみたいなのはなんかあるかもしれないです。
なるほど、確かに言われてみればそうですね。
結構外れ知的なところに目を向けがちだけど、コンペでスコアを上げるなら多数派に目を向けてそこの精度を上げていく方が、
効率的に順位も上がってくるねってそういうことですよね。
実部で生きる部分の方が多いですか?どうですか?肌感。
むずいですよね。
画像コンペとかそういう自然言語系のコンペとかだと、やっぱり直接その医療画像コンペとかだったら、
医療画像系のことをやってないと直接的には結びつかない部分とかも多いんですけど、
全然自然画像とかとドメインも違ったりするんで、役に立たないかもなって思うことはあるんですけど、
結局その土台になっているデータを見る力とか、あとはなんかそのとりあえず画像モデルとかを作れる引き出しとか、
なんでそういう手法を選択したんだっけみたいな仮説を検証する力とか、
なんかそういうところはめちゃくちゃリズムに生きるかなというふうには思いますね。
じゃあ、普通に転職のタイミングで、そういうかぐるの中で見てたいろんな分野の経験があった上で、レイヤーXにしたんですか?
あんまりそのドメイン的なところはあんまり関係ないですけど、
結構やっぱり引き出しの機械学習でやりたいことがいっぱいあって、結構自分の引き出しの多さとか、
そういうところを活かせる場面が多いなっていうのはすごい感じましたね。
今ってちなみにどんなことやってるんですか?
レイヤーXっていう会社は、いわゆるBSMって言われる市場で、ビジネススペンディングマーケットって言われる市場なんですけど、
B2BのサービスのSaaSを作ってますっていう会社で、経理業務とか経費生産とかのSaaSを作ってるっていうような会社なんですよね。
経費生産とかってめちゃくちゃめんどくさいじゃないですか。
経費生産とか確定申告とかめっちゃめんどくさいじゃないですか。
感情科目入れたりとかそういうのってめっちゃめんどくさいと思ってて、
今までって結構経理業務とかってまず紙で管理してる時代がありましたと。
最近電子帳保存法っていうのが始まって、電子で保存しても良くなったりとかだんだん変わってきてはいるんですけど、
そこからパソコンに入力するようになりましたと。
それがまたインターネットが出だして、インターネット通じて誰でも入力できるようになりましたみたいな感じでのサービスになってきてるんですけど、
そこって結局誰がやるかっていうのが変わっただけで、作業の本質というか構成自体は削減されてこなかったわけなんですね。
そうですね、確かに。
結局インターネットに入れてるだけと、インターネットに入れるか手書きで書くかみたいな。
そこの作業が電子化されてるかどうかっていう感じなんで、構成は別にそこまで削減されてこなかったんですけど、
最近はAI技術が発展してきて、OCRとかすごい発展してきてるじゃないですか。
OCR。
OCRっていうのは文字認識をするものですね。
例えば経費生産とかだったら、領収書の写真を撮ったら自動的に店の名前と金額といつ行ったかみたいなのが読み込まれて、
フォームに自動で入力されて、交通費とか打ち分けみたいなのが大体会社ではあるじゃないですか。
交通費、何円以上の会食とか何円以下の会食みたいな打ち分けみたいなのがあると思うんですけど、
そこも自動的に保管されて、ポチッとしたらもうアップロードしたら経費生産終わってるみたいな。
データサイエンスにおけるAIの活用
その手入力自体がなくせる時代になってきているなと思っていて、
なんでそこが結構今、インターネットが流行ってきたのと一緒でAIが流行ってきて今すごい市場が変わってる段階だなっていう思うんですよね。
で、なんでやっぱこっからの時代は経費生産とか経営業務とかって、
AIがまず手元にあって、そこから、
例えばもう請求書を受け取ったら自動的に入力されて支払いまで済んでいる状態みたいな感じの世界を目指せると思っていて、
そこのAIを作るっていう部分に今すごいうちの会社としてはペットしています。
なんで結構そのAIがめちゃくちゃコアな技術として重要なんですよね。
だから僕たちは今そういう、とりあえずそのOCRとかを使って、
例えば請求書を入力したら、いつ誰にいくら払うのかみたいな項目を自動的に抽出して入力が保管されるみたいな、
手入力をなくしましょうみたいな感じの作業効率化だったりとかをしていっていて、
で、あとなんかいっぱいサービス出してるんですけど、ビジネスカードとかも出してて、
ビジネスカードとか使った裏で何が起きてるかって、カードの明細が経理の人に届きますと。
で、経理の人は月末とかに、じゃあこのカードの明細と申請で上がってきた経費生産の要求書が、
どれの明細がどれの申請に紐づいてるかっていうのが目で判断しなきゃダメなんですよね。
で、ビジネスカード、そんなカードとか使ってる人とかってもう月末にすぐ出してくれればわかりやすいんだけど、
そんな月末にまとめて10枚とか出すじゃないですか。
で、カードの明細も10個あって、それを一人一人なんか1個1個紐づけてっていうのはめちゃくちゃ面倒くさいと思うんですけど、
そういうのもOCRとかで業種書顔データ化してあげて、カードの明細とマッチングしてあげて、
みたいなことを自動的にやってあげるみたいな。
そういう横軸の価値みたいなのも作れたりして、そういうデータを結構中心においてサービスを展開していってるんですよ。
だから結構そのデータがめっちゃ溜まっていくと、本当に請求書とかでお金の流れとかが全部わかってるわけなんで、
この会社のこの規模だったら、ちょっとSARSにお金使いすぎじゃない?みたいな。
SARSコスト、昨年SARSみたいなのが作れたりとか、
そういう最終的には企業のお金を節約しようみたいな、そういう事業が作れると思っていて、
実際海外の会社だとすごいそこが成功してるんで、そこを一番にうちの会社が担いたいなっていうふうに思ってるっていう感じですね。
なので結構面白い。
もうなんかこの会社の話をしようって言われるともう喋りすぎちゃうんで。
そこに惹かれたから入ってるんですもんね。
そうですね。やっぱ機械学習がコアになってるっていうところで、
OCRとビジネスカードの自動化
さっき言ったみたいに、ただOCRするっていうところだけでも画像認識だったりとか、自然言語処理だったりとかっていう能力が必要ですし、
ビジネスカードと業種書のマッチングみたいなところだと、ちょっと低構造化データの扱いに慣れてないとできないしっていうところで、
結構やっぱ引き出しの多さっていうのがいろいろ活用できる部分が多くて、
そういうところでやっぱできること多くて面白そうだなっていうふうに思った部分もありますね。
広いですね、確かに。
それをもろもろできる幅の広さとか。
じゃあそもそも機械学習めちゃめちゃ強強な人がいっぱいいるんですか?
でも結構そんなわけでもなくて、
結構そんなことを言ってると敷居が高いとかうちの会社思われちゃうんですけど、そんなスタートアップなんで、
そんなにやっぱり最初から強い人がいっぱい入ってこれるわけではないかなっていうふうに思って、
どっちかっていうと結構各々強みがある人が多くて、すごいドメイン知識が強い方とか、
今までバックエンドとかフロントエンドとかもやってて機械学習もできる人とか、
そういう幅の広さ、チームとしてはそういういろんな人がいて、
いろんな人がいて本当に各々の強みを生かして働ける場所だなというふうには思ってます。
なんかじゃあ一人一人の守備範囲が広いから、いい感じにどんどんフィールドが広がっていくイメージがしやすいって感じなんですかね?
そうですね、だから僕も結構今の会社入ってから初めてこうとか触ったりとか、
そういう感じでちょっと横の人にこれってどうやって書くんですか?って教えてもらいながら書いたりとか、
そんな感じで結構助け合いながら仕事してます。
めっちゃ楽しそうじゃないですか。
面白そう。レイヤーXでもさっきちょっと調べさせてもらったんですけど、
同じようにかぐる精度みたいなところで、なんか自己計算枠みたいなのがあるっていうふうに伺ったんですけど。
そうなんですよね。最近僕が入社してからこれはあった方がいいって言い続けて作ってもらったんで。
しばくした発信なんですか?
そうですね。僕が入社する前からあった方がいいですよって言って。
その10万円ぐらいまでクラウド費を補助しますよっていうのと、
20%の自己計算ルールみたいなのを作りましたっていうところですね。
すげー。じゃあ転職しても変わんない環境で。
もう絶対戻ってこないじゃん。
会社が潰れたら。
でもこの間めちゃめちゃバズってませんでした?爆落から出したインボイスの資産のやつ。
あーやばいですよね。
激バズりしてましたよね。
皆さんインボイス制度って結構個人事業主とかアニメーターの中小系の方がすごいお金を払わなきゃいけなくなるからダメだっていう思うんですけど、
データサイエンティストの役割と将来性
実際現場の手間もめちゃくちゃ増えるんですよね。
インボイス制度が入ってきただけで経理フローがめちゃくちゃ複雑になって、
2、3枚の帳表をチェックするだけでも1時間ぐらいかかったんで、やってられねえわって思いました。
それでインボイス制度にいろいろすることで増税する分よりも、
世の中でかかる高数で換算した人件費の方がオーダーで違うっていう。
ツイッターで大バズりしてたもんな。
最後に聞きたいんですけど、さっき画像OCRとかもやってますよとか、
何なら最近オートMLとかもちろん生成AI系も成長が著しいじゃないですか。
こうなってきたときに結局データサイエンティストが頭使ってどういう風に分析しようかなみたいなところも、
AIにとって変わられる可能性もあるのかなと思っていて、
少なくともそういう話もあると思いますし、
これからのポジションの取り方、データサイエンティストとしての社会での存在価値みたいなところって、
どこにあるのかなっていうのを伺いたいんですけど、どう考えてます?
そうですね。本当にカグラレベルのモデリングとかできちゃう、
生成AIとかオートMLが本当にできるなら、モデリング部分とかは廃業しちゃうかもしれないですね。
それでしかも低コストとかになってくると。
そうですよね。その未来って見えるんですか?
あんま僕の中では見えてないんですけど、結局生成AIとか分析とかに関しても、
チャットGPTとかでじゃあやります、自動でやってくださいって言って、
言っても今も結構プロファイリングとかしてくれるツールとか結構あるんですけど、
やっぱそこからインサイトとか、じゃあこれがこういう可視化になるから、
じゃあどういうことなんだっけみたいなところをちゃんと考えれるかって言われると、
結構そこまではむずいんじゃないかなとか、
あとはやっぱオートMLとかも自由度が結局低いんで、
インプットするデータしか変えれないとか、
なんかそんな感じの部分もあったりするんで、
やっぱ問題解決、実際業務で問題解決したいなってなったときの解決策の幅が結構狭くなっちゃうとか、
モデリング部分変えられないんでとか、
結局データ見る力は大事っていうのとかはありますし、
結局生成AIもオートMLとかもツールの一つだと思うんで、
使う分には、僕らがデータサイエンスとして使う分には全然いいと思うんですよね。
そうですよね、便利ですもんね。
別に何か便利なんで、ベースラインちょっと作ってみましたみたいなときにはすごい便利なツールなんですけど、
結局それを実際のサービスに組み込むってなったときに、
組み込むっていうのが社会実装するっていうのが結局重要だと思うんで、
それらも結局一つのツールとしてしか考えられないじゃないですか。
なんで、結局どういうデータをそういうものでツールに入れましょうとか、
そのオートML使って毎日動かしてコストに見合うんですかとか、
もっと簡単にオートMLとか使わなくてもできますよみたいなのが思いつけるのかとか、
じゃあどうやってそれをAPIとして現実的なレイテンシーで実装するんですかとか、
そういう全体感とかをちゃんと考えれる人っていうのはやっぱ重要かなっていうふうには思いますね。
じゃあ全然データサイエンティスト、まだまだ熱いって感じ。
まだまだ熱いし、ちゃんと基礎を学んで何が動いてるかを理解しなきゃいけないっていう、
理解しなきゃいけない幅がむしろ広がってきてるっていう感じですかね。
そうですね。オートMLとかも中で何が起きてるのかとか、
ちゃんとわかってないとやっぱりチューニングとかもできないと思うんで、
結局データサイエンティストの職業って日々勉強だと思っていて、
割と毎日勉強してる。結構やっぱり移り変わりの激しい分野なんで、
毎日勉強しないとダメだなっていうふうには思うんですけど、
そういう勉強できる人って結局ピポットとかもうまくできると思うんですよね。
データサイエンティストじゃなくても。
なのでそこは別に、その時代時代に合わせて、
今こういう時代だからこういう動き方した方がサービスを作りやすくなるなみたいな動き方とか、
そういうのを考えて日々動けば大丈夫なんじゃないかなっていうふうに思います。
結局その勉強しなきゃいけない幅も広がってるし量も増えてるから、
もう自明なことは自明で、もうスキップするっていうのは最初の話に戻るんですけど。
島越さんそういうの得意だから。
そこだなって思いました。
いかに効率よく時間を作っていくか、そして勉強するかですね。
ちゃんと伏線回収をしてきましたね。
さすがです。
いい質問用意しといたね最後ね。
よかった。
こっからずっと新卒でデータサイエンティストで同じ会社でっていうタッチャンのステータスは、
どっかでね転換期を迎えるかもしれないしね。
かもしれないですね。
このポッドキャストでキャリアの勉強をしていくっていう。
ぜひご応募お待ちしています。
あ、きました。
はい、ぜひよろしくお願いしますってこの場で言っちゃっていいんですか?
面接奮闘期シリーズやろうか。
ここで。
そうですね、自分の会社の人にどう説明すればいいんだろう。
カジュアル面談とかをすると結構やっぱり面白いですね。
他の会社どんな感じでやってるんだっけみたいな話を聞けたりするんで。
じゃあまずはカジュアル面談から。
そうですね。
ぜひぜひ。
会社の人聞いてたらね、ちょっと気まずいな。
まあでも、しまこさんっていなくなった後に俺こうやって収録してるわけだからね。
そうですね。
まあ結構いろんな話聞いたんで最後僕から1個聞きたいのが、
データサイエンティストとは
データサイエンティストは21世紀最もクールな仕事だっていうのはどう思いますか?
セクシーです。
あ、セクシーだ。
セクシーなのかな。
セクシーな感じします?
あんま、なんか日々太ってってるんでやっぱ運動しないから。
え、太りました?
いや、あの多分退職してからはそんな変わってないんですけど、
やっぱり日々運動しない職業ではあるんで、
どんどんどんどん太ってってる自覚はあります。
全然セクシーになれてないので。
グラマラスにはなってるけどセクシーではない。
もっともグラマラスにはなれるかも。
これからデータサイエンティスト来るたびにこれをね聞いていって、
傾向をつかんでいくグラマラス初回答だ。
いや、一番面白かったかもしれない。
これ聞かせよう。今度から新しいゲスト呼ぶときに。
あ、こんな感じで最後聞くんでお願いします。
大喜利みたいなの最後用意しといて。
めちゃめちゃゲスト承諾率が下がるかもしれない。
いやー面白かったな。
これからも背中をかけてかぐるに精進したいと思います。
今日はお時間いただいて本当によかったです。
島越さんの仕事について
じゃあ最後、今やってる仕事の話、途中でめっちゃ色々聞いたんですけど、
最後ちょっとしのこしさんどんなことやってるかお話してもらって終わりにしようかなと思います。
そうですね、結構途中でもお話させていただいたんですけど、
本当にそういう経費生産とかの業務をなくしていこうっていう会社で、
SaaSプラスFintechの授業をやっております。
すごい機械学習を使うことで世の中が幸せになるっていう、
本当に価値のあるものを生み出せる会社かなっていう風に思ってます。
なのでぜひ皆さんも興味がありましたらご応募やカジュアル面談のほどよろしくお願いします。
授業フェーズ的にも結構面白いと思ってて。
爆裂に資金調達してますもんね。
そう、爆裂に資金調達してますし、
なんか日本の時価総額1000億、今のトップ5とかってSaaS企業なんですよね。
HRとかこういうBSN市場とかのSaaS企業で、
次にそこに入るのはうちの会社だという風に思っておるので、
そういう爆裂に成長している会社に入りたい方、ぜひよろしくお願いします。
これは概要欄に島越さんのTwitterとかを貼っておくのがいいですか?
あと会社のホームページですかね?
そうですね、とかカジュアル面談ページとか貼ってます。
じゃあその辺りを概要欄に貼っておきます。
職種的にはデータ系の職種全般的に募集してるんで、
アナリストとか、データエンジニアとか、データイネイブリングとか、
MLopsとか、機械学習エンジニア、僕と同じ機械学習エンジニアとか、
本当に幅広く募集してるんで、少しでも興味があったら声をかけていただければなという風に思います。
よろしくたっちゃん。
よろしくお願いします。
いや面白そうな会社だなと、率直に思いました。
ありがとうございます。
ありがとうございます。
ということでじゃあ今回はスペシャルゲストというところで、
Kaguru Grand Master、そしてLayerXの機械学習エンジニアをやってる島越さんに来ていただきました。
ありがとうございます。
ありがとうございました。
ありがとうございました。楽しかったです。
43:53

コメント

スクロール