49. データ基盤のカギは分散処理！並列でデータを処理するメリット【あらびき団】

00:03

共感、共感、共感してください。

懐かしくない?

何か全然分かんなかった。ええ、嘘でしょ。

全然共感できなかったよ。

みちゃこ知らないの、みちゃこ。

全然共感できない。

今きっと、お笑い好きリスナー、

データ分析屋さんの、きっとね、1パー2パーぐらいはいると思うけど、

うおおお!ってなってる。今血が沸き立ってる。

狙うとこに一致すぎるでしょ。

いやもう、これはね、あらびき団みちゃこで調べてくれたらね。

とりあえず今回のテーマは、分散処理だけど、

やっぱちょっと印象に残ってたのが、共感を勝ち取るってとこだったから。

一旦まず共感かなっていう。

そうだね、確かに。共感大事よ、何事においても。

何事においても共感大事だから。

ここのこのコワーカーたちも、もう共感の嵐。

毎日毎日共感して、共感を分散処理してる。

もうむちゃくちゃだな。

ちょっとオープニングをね、ソフトにしておかないと。

今回は結構データ分析屋さん、実は裏でどうやってデータ動いてるかわからんっていう、

分散処理の話をしていくと。

分散していくことが、何事においても実は大事なんじゃねえかみたいな。

し、データサイエンティスト、データアナリストだったら、

まあ1回ぐらいは、ちゃんと調べないといけない場面が来るよねっていう啓蒙活動ですね。

そうですね。

久しぶりに思い出してなんか、勉強になったわ。

2年目とかにね、勉強するんすよね、こういうの。

まあするよね。絶対みんな1回はするからね。

するする。

だからまあこういう勉強が待ってんのかなって思う人もいれば、

なんか昔分散処理の話勉強したなっていう人は、

まあそういう振り返りとかに使ってもらえたらいいんじゃないかなっていう、

まあそんなエピソードになってるんで、ぜひ最後まで楽しんでください。

隣のデータ分析屋さん。

この番組は、隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁ、

を叶えるポッドキャストチャンネルです。

データアナリストのりょっちです。

データサイエンティストのたっちゃんです。

今日はたっちゃん企画、何でしょう。

今日はですね、隣のデータ分析屋さん、

いや分析屋さんのイメージを払拭しに行こうっていう回なんですけど、

キーワードは分散処理です。

03:02

分散処理。

多分だけど俺は1ミリもわかんないね。

いや、でも分析してる人っていう世間一般のイメージを考えると、

これおそらく部屋にパソコンいっぱい並べて、

よくわかんない画面いっぱい出してカチャカチャやってるっていうのが、

普通の人はそういうイメージするんじゃないかなと思うんですよね。

学生に1回言われたことあるよ。授業持ってる学生に。

地下室みたいなとこでやってると思われてた。

いやだから多分ね、このインのイメージがあると思ってて、

なんかわけわかんないパソコンいっぱいの中で作業してる人っていう。

でもこれあながち間違ってないと思ってて、

いや間違ってるだろ。

いやいやいや、そういう人もいる。

マジ?

少なからず自分はそういう経験をしたことがあるって言える。

え?そうなの?

っていう話をちょっと今日はしていきたくて。

給料ペリか?

そういうのが地下労働施設でモニターを見るだけの簡単なお仕事させられてたりしない?

カイジみたいな世界観?

そう。

違う違う。

ちゃんとここに意味があって、そういう仕事をする人も中にはいるし、

そんないう本当にパソコンいっぱいの中で仕事をしてなくても、

似たようなことをしてる人って意外と分析屋さんにはいるんだよっていう。

正しいイメージを皆さんに持ってほしいなっていうところで、

今日はそこに絡めた分散処理っていうキーワードで話していきたいんですけど。

分散処理ね。

これ結構マニアックな内容になりそうですね。

いや、なので、じゃあ皆さんの共感を呼ぶところから話していくと。

慣れてきたね、ポッドキャスト。

まずは共感が大事ですからね。

いや、これでも仕事のプレゼンでもそうじゃないですか。

確かに。

営業トークも。

何を皆さんに共感してほしいかっていうと、

世界的にデータはたくさん増えている、生まれているっていうところが、

みんな知ってる通りかなと思うんですけど。

そうですね。やばいでしょうね、データ量なんて。

このデータの増加って指数関数的に増えるって言われているくらい、

急激に時間の経過とともに倍々で増えていくみたいな、

そういう伸び方をしてるんですね。

あるレポートによると、

2025年までに世界で生まれるデータ量って175ゼタバイトまでいくらしいんですよ。

06:00

ゼタバイトは、キロ、ギガ、メガ、ペタ。

もうそこ違うよ。

キロ、メガ、ギガ、ペタ。

ギガの次はテラかな。

テラか。

テラ、ペタの次。

とりあえず、175兆ギガらしいです。

175兆ギガ。

0.1Kだね。

え、そうなの?合ってる?それ本当に。

1、10、100、1000、1、億、兆、K、Kでしょ。

あ、Kってそっちね。

キロのKだと思った?

うん、そっちかと思った。

意味わからない。

馬鹿じゃん。100じゃん、そんな。

あれね、京都のKね。

そう、京都の京。

スパコンのKだ。

そう、外、なんだっけ、極上、K、外、上、上、交換、制裁、極、豪華社、あそぎ、ないった、不可思議、無料体数ね。

無料体数0、60個だよね。

まあ、その計算でいくとね。

確か、確か60個。

だから天文業界では無料体数超えがあるから、足りないよね。日本人の発想力の低さですよ。これは60までしかないと思ってる。

いやもう、不可思議とかって、もう4文字熟語入れてくるあたりで終わりじゃないですか。

いやいや、もう若なくなっちゃってるからね。

さらば青春の光のなんかネタであるよね。

あそぎ?

みたいなやつ。

とりあえずデータめっちゃ増えてくるよって話。

うん。

で、これに伴って、うちら分析屋さんも嬉しくて、データ増えると、いわゆるデータドリブンで事業をしていくみたいな会社が増えて、データ分析市場、機械学習市場とかも伸びるよねって言われてて、市場規模も大きくなると。

なるほど、なるほど。

これは僕らにとっては嬉しい話なんですけど、ただ、データ増えて分析できるデータ量がたくさんになった時に、そのデータってうちらがよくパソコンで分析してるけど、そのパソコンに乗るって話なんですよね。

うん。分析できるような形まで落とされて手元に届くってことね。

まあそう、ただ分析できる、一つのパソコンの中で分析できるデータ量なんて上限があるし、分析しない人的にもイメージしてもらうと、エクセル開いた時にエクセルのファイルサイズでかすぎて、パソコンフリーズみたいなことってよくあると思うんですけど。

09:07

似たようなことが、僕らのパソコン、データ分析屋さんが扱ってるようなちょっとリッチなパソコン、分析特化したようなパソコンでも似たようなことが起きるっていう話が、これからデータ量が増えると全然あると思ってて。

はいはいはい。

じゃあどうするっていうところ、結局AI作る、機械学習のモデル作るってなった時に、たくさんデータを増やした方がいいモデルはできるよねっていうのは一般的に言われてて、

もちろんそこに質の良いデータを集めるっていうところはあった方がいいんだけど、それでも大量のデータがあればあるほどいいっていうのはチャットGPTを作った時のレポートで明らかになったっていうようなことが言われてて。

データ量こそが正義だからね。

そうそう。ってなると、大量のデータどうやって扱うのっていう話になってきて、ここで分散処理っていう技術が使えるって話なんですよ。

はいはいはい、やっと来ましたね。

そう、やっと来た今回のキーワード。

もう何かっていうと、一言で言うと、一個のPCじゃなくて、たくさんのPCを繋いで処理を動かす、データ分析をするっていう、この一言に尽きるんですけど、分散処理って。

じゃあ、そこら辺にいるデータ分析屋さんって常にパソコン何台も持ち歩いてるの?って言うと、そういうわけではないと思うんですよ。

まあ、そうね。普段1台派?

普段1台派。2台持ってる?

2台持ってるね。一回、前の仕事の時、机の上に3台開いてる時あった。

ほら、そういう人がいるから、データ分析屋さんのイメージがそっち側に行っちゃうなよ。

あるよね。デフォルト2だったね、前の仕事の時は。

何、分析する用のPCが2個あるってこと?

いや、分析する用のPCと、ちょっとしたクラウドで分析できる、プラス発表資料とか諸々作る用の、普段使い用のパソコンとみたいな。

分析用のパソコンがめちゃめちゃセキュリティ厳しくて。

会社とかだと、席に南京錠でロックされてるみたいな。

セキュリティの問題か。

そうそうそう。ってなって、それにプラスで横に別のラップトップ開いて、2台体制とか。

だから別に、その2台を繋いで分散処理してるわけではないですよね。

12:00

違う違う違う。完全に別役割って感じ。

はいはいはいはい。だから今回のキーワード分散処理をやるためのパソコンをみんな持ち歩いているわけではなくて、

それぞれの用途で2個持ってる人、3個持ってる人はいるかもしれないんですけど。

ただ、大量のPCを繋いで、大量の処理を動かすっていうことができるっていうことは技術的にあって、

じゃあそれどうやってんのって話なんですけど。

だってあれだよね、機械学習とかやるためにグラフィックボードとかを買わなきゃいけないのは、

それをやんなきゃいけないからだよね。

あ、いいキーワードですね。グラフィックボード、いわゆるGPUを、

GPUが入ったPCを使ったり、自分でカスタマイズして作るみたいな、そういうイメージですよね。

うんうんうん。うん、そうです。それは分散処理をするためっていう、することができるのか、それによって。

はい。

なんだけど、今日の話は、分散処理。これ分散処理って結構ふわっとした概念で、いろんな方法があるんですけど、

一つが今ロッチが言ったように、パソコンにグラフィックボード、GPUを導入して分散処理するっていう方法と、

もう一つが、複数のいわゆるパソコン本体をつないで、各パソコンがそれぞれの処理を並行してやるっていう方法。

うんうんうん。

これどっちも分散処理といえば、どっちを指すこともできる言葉なんですけど、

はいはい。

今日話したいのはどっちかっていうと、校舎のパソコンを何個もつないで、処理を並行で動かすみたいな、そういうイメージですね。

あー、なるほどね。並列つなぎだ。

そうそう。

並列つなぎで電球パッて光らすやつだ。

うん。で、これどうすんのって話なんですけど、今さっきクラウドでって話が出たと思うんですけど、

まさにパブリッククラウドのサービスって、こういう分散処理するのにすごい適してて、

はい。

クラウドのサービスって何台のPC、コンピューティングリソース使うかとか、その1個のPCのスペック、メモリとか、CPUの数とかっていうところも全部カスタマイズできるんで、

その1台1台のPCをどういうものを準備するかっていう、そこのPCの数とかスペックの柔軟性がすごい分散処理と相性が良くて、

あー、好きなタイミングで好きなパソコンに組み替えられるからってこと?

そうそうそう、っていうところがもう今主流になっているんで、だから別に分析屋さんは1台のPCを持ち歩いて、ネットワークからクラウドに繋いで、そこで分散処理をしているっていうのがよくあるケース。

15:07

なるほどね、なんかあれだね、46話3個前ぐらいで話したデータスチュワードさんの仕事内容もそういうところに寄って行ったりするのかね。

あー、確かにデータスチュワードも別に自分の会社にあるデータベース、PCをいじるんじゃなくて、クラウド上のデータ分析基盤を準備するとかそういう仕事が主流になっているから、確かに近い仕事をしているかもしれないですね。

あれね、評判良かったもんね、スチュワード界ね。

そうですね、業界に届いてたっぽいですよね。

なるほどね、なんかじゃああれ、こう激弱、タスクによってはめちゃめちゃ激弱PCを10台繋いだ方が実は効率がいいとかもあるわけだ。

そう、タスクによっては。

なんかじゃあ1台のモンスターマシーン、例えば100万みたいな、100万円ですみたいなやつよりも1万円のPC、50台とかの方が成果をすぐに出してくれる可能性があったりするっていうオプションがあるのかな。

そう、どういう計算を1個のPCにやらせるかっていうところで、それはタスク次第っていうことではあるんだけど、本当に簡単な処理だけをさせたいんだったら、今言ったすごい安いパソコンばっかり準備してやらせる、作業させるっていうのが一番いいかもしれないですね。

だからさっき言った1万円くらいのパソコンを大量に準備して、そこに少量のデータを分散させて持たせるとか、処理させるっていうこともできるし、少量なんだけどその少量のデータを実はごちゃごちゃこね回すみたいな処理が複雑だったらそこは1万円のPCじゃ足りなくて、もう少しメモリのサイズを上げてリッチにしてあげないと、

その少量のデータでもPC落ちちゃうよとかそういうことがあったりするから、そこは結構柔軟にチューニングしないといけないっていうところが難しさとしてはまたある。

なるほどなるほど。今日の分散処理の話ってどっちかというと保持するとか、実行するっていう段階の前のところの話だよねきっと。

そうだね、インフラ作るとかそういう話に近いかも。

例えば1万行あるデータが10個あって20個のPCで分散処理しますみたいな話になったら、1万行のデータが10個あったらそれを半分にして20個にしてそれぞれを格納するってイメージなのか、

18:03

1万行を20分割して10個それぞれを20分の1ずつ収めていくかみたいな、収め方いろいろあるじゃん。

あるあるある。

そこって何かあんの?そのルールみたいな。

いや、ルールはなくてその1万行がどういうデータかによるってのとどういう処理させたいかによるっていうすごい良い逃げ方をしてしまってるんだけど。

なるほど。

例えばその1万行のデータが時系列データで、1日単位で集計させたいみたいな意図があったときは、じゃあその1日単位で20個のPCに分散させてあげて、

同じ処理を20個のPCで実行すればいいから、これってデータも等しく分散させるし並列で実行してもOKっていう。

なるほど。

ことがあるんですけど、ただそうじゃなくて、処理自体は1日単位じゃなくて、例えば2日単位でやらなきゃいけないとか、

そういうような処理だったらデータを綺麗に分割させてはいけなくて、計算の方法を変えるためにデータの保持のさせ方をチューニングするみたいなところをちょっと頭使ってやらなきゃいけないんですけど、

でもここって難しい話で、ここ別に人考えなくてもよくて、今こういうことを自動的にうまいことチューニングしてくれるフレームワークというかツールがよりはいっぱいあるから、

どっちかというとそこに任せる。そこを考えることをPCに任せるみたいな。

えー、便利な時代だ。

そう。だから20個あるPCでもそのうちの1個は処理をスケジュールしたりとか、どういうふうに実行の順番を考えるかっていう頭脳を持たせる。

いわゆる3本になってくれるPC1個準備して残り19個に処理を走らせるみたいな、そういう仕組みを作るっていう方法もあったりする。

そこの設計のスペシャリストだった人は今仕事を失ったわけだね。

まあまあまあ。まさにこの考え方をするのがね、スパークって言われるフレームワーク、ツールがあって。

で、今はここはデータブリックス社っていうところが管理、メンテナンスしてるんですけど。

データブリックスってあれなんだよね。ユニコーンなんだよね、確か。上場してないんだよね、確か。

アメリカの大手テック費用。

分散知らねえとか言って、スパークも触ったことあるし、データブリックスでの分析ゴリゴリにやってたわ。

だからあんまり意識せずともうできちゃうっていう。今話してきたデータの持たせ方、どういうふうに分散させるかっていうのは、

21:07

もう裏のことは隠れてデータブリックスが勝手にやってくれる。裏で動いてるスパークが勝手にやってくれるからあんまり意識することはないんだけど、

実はそういう上手いこと、データの保持を効率的に高速で処理してくれるっていうのが動いてる。

スパークはめっちゃいいよね。同じ処理を別のデータ分析のプラットフォームでやってみたいなのを比較したことあるんだけどね。

やっぱスパークの概念、スパーク概念というかスパークの役割めちゃめちゃ大事だなみたいな。

いや大事。早いしね。

分散処理ってすごいね。

マジすごい。

これってさでもなんか、実はそこのスパークの話をめちゃめちゃ勉強した時と同じぐらいの時に、データレイクとかの話も結構勉強したんだよね。

結局データのパイプラインどうやってできてるかみたいな話とかを総合してみなきゃいけなかったから、なんかね、その3回前のデータスチュワードの回と個人的にはめちゃめちゃ勉強して調べた時期がね一致すんのよ。

なるほど。それでも納得だな。なんか結局データをどう保存するかっていうところがこの分散処理を効率的に高速で回すかに効いてきて、さっき言った通りその大量の1万行のあるデータを分割してデータを保存しなきゃいけないんですよね、分散処理する時には。

いわゆるパーティーションを切るっていう言い方をよくするんですけど、どういうことかっていうと、その20個あるデータをその1日単位で1つのファイルにまとめておくみたいな、そういうイメージでデータを保存しておくことで、その先の分散処理の時にデータを呼び出すところが1箇所で済むからすごく早く処理が動くみたいな。

というところで多分同じタイミングで勉強したんじゃないかなっていう。

そうだね。なんかね、それこそ前職の時かな。天文の研究からデータサイエンティストになりましたってなって、それこそデータ量えげつない会社だったからさ。

で、やるってなったら、何千万人とかのデータを何百万人何千万人のデータ分析しなきゃいけないっていう状態だから、そういうのも必要だし、あとデータの格納の仕方も単純にテキストだけで残ってるかで言うとそうじゃなくて、パケットみたいな形式でバーって保存されてて。

で、それがこれはデータレイクってとこにありますぜみたいな話とかっていうのをバーって言われて、何言ってんだろうみたいな。天文のデータそんな感じになってなかったけどなみたいな。

24:14

でなって、1回めっちゃ調べて、はーみたいな。

これ困りません?同じ経験自分もしてて、今まで同じ研究室卒業してるから天文の時のデータの保持のさせ方ってあるじゃないですか。言っちゃえば1つのフォルダに同じデータ入れとくみたいなデータの持たせ方だったと思うんですけど。

自分も仕事で、いわゆるビッグデータって言われる何億行とかあるようなデータ扱うっていうプロジェクトに入った時に、もうPython使えないからねーって。

スパークのフレームワークをスカラっていう言語で動かしてっていう、聞いたことないような横文字大量の中に入れられて、え?みたいな。

それで分析しろって言われる。でも、実はそういう分散処理の基盤の中で動いているようなシステムを触んなきゃいけないから、それに特化した言語分析方法っていうところをそこで一から勉強して。

なるほどね。どうにか、どうにか仕事は進めたんですけど。だから今日ここで、このポッドキャスト分析屋さんの人も聞いてくれてると思うので、そういう人たち向けに言うと、いきなり仕事の中で聞いたこともないようなスパークとかスカラっていう世界に飛び込むことがあるかもしれないし、

最初言った通りデータの量が増えていって、これから分散処理がもしかしたらやらないといけないケースが出てくることがあると思っていて、そこでそういういきなり知らない世界に行くことがあることを知っておいてほしいなっていう。

まあそうね。ちなみにだけど、俺はスパーク使うときPythonだったけどね。パイスパークっていうのがあるからさ。あるし、なんならその中でSQLのコマンドを動かせるし、なんかね意外と多分汎用性は高いというか、結局PythonとSQLなんだなって今振り返っても思ったりをする。

そうだね。スパーク自体の開発が、さっきデータブリックスがやってるって話したと思うんですけど、できるだけいろんな言語で触れるようになっていて、その中でPythonでも動かせるようになってきてるから、全然Python使えばOKだし、中でSQL動かせるようにできるだけユーザーに優しいような設計になってきてるのは事実。

そうだよね。データブリックスのノートブックだったな。そう、データブリックスの中でノートブック用意されてるから、そこで動かせるみたいな。

27:03

だから慌てないで大丈夫ってことですね。

どうにでもなりません。結局PythonとSQLなんですよ。

それは間違いないですね。

Javaが2位だよね、確か。Pythonが1位。なんか利用頻度というか。

毎年出てますよね、そのランキング。

学生の頃はPython2位だった気がするんだけど、この間何か見たら1位だった気がする。

そうだったね、確かに。

しかも2024年のデータサイエンストレンドみたいな、海外の記事何個か見てたら、Python人気がさらに爆発するって書いてあったよ、2024年。

じゃあもうしばらくPython一況自体が続きそうですね。

あとセクシー、データサイエンティストセクシーじゃなくなるって書いてあった。

2024年とその以降、その先のデータサイエンス業界の動向というか未来予測みたいな記事っていっぱい出るじゃん。

バーって見てたら10個目ぐらいの項目に書いてあった。レスセクシーみたいな。

どうなる?じゃあ普通の仕事?

もっと泥臭い仕事っぽいのが増えるよみたいなそんな感じだったね。

もっと泥臭くなるの?やだよ。

てか思ったよりセクシーじゃないよねっていう話かもね。

バレただけ?

バレただけっていう。実際元々セクシーじゃなかったっていう。

そうだね、全然セクシーじゃない。で、世間一般のイメージはもうちょっと気持ち悪い人みたいになっちゃってますよね、きっと。

そうだね、ギーク、ナードの世界です。

こういうのあれなの?ああいうのでやるの?なんだっけ?ソリューションアーキテクトみたいなやつとか。

AWSの資格とかそういう話ですか?

そうです。

出てきますよ。そのAWSの中にも分散処理をするためのEMRっていうサービス自体もあったりするんで、それでどのような言葉できますかとか。

EMR、久しぶりに聞いた。

っていうところでね、勉強もできるし。

少なくとも自分はUDemyで勉強したな、このプロジェクトがサインされた時に。

分散処理ってなんじゃーっつって。

なるほどね。

ただね、ドキュメントが少ないんですよね。

今日この話してわかったと思うんですけど、一般の人は絶対に分散処理しないんですよ。仕事じゃないとしない。PC何個も準備しないよっていう意味で。

あーそういうことね。

どんどんPythonでも使えるようになってきてるし、Databricksとかでノートブック形式でもできるようになってきてるし、慌てずやれば大丈夫。

俺も必要になったらもう一回ちゃんと勉強しよう。一回やったけど。

そうっすね。

分散処理に困ってる人のね、ちょっと助けになれば嬉しいですね。

30:05

分散処理の勉強しなきゃって、わーってなってる人は意外と俺らが悠長に構えてれば。

大丈夫大丈夫。

焦るな。

というところでまとめると、データ増えてきて分散処理をする機械っていうところもちょっと増えてきてるんだよっていう話。

分散処理するのにローカルのPC使うんじゃなくてクラウドとかで今はやることが主流になってるよって話と、

あとは分散処理自体も実はPythonとか、今あるノートブックの形式でできるっていうところにもなってきてるんで、

慌てず、悠長に構えてても大丈夫っていうところがまとめでしたね。

やばくなったら勉強してくださいと。

そういうことです。

じゃあそんな感じでいきますか。

はい、じゃあ次回はどんな話しますか。

次回何でしたっけ。

次回はね、いつだっけな、めっちゃ前にネットワークサイエンスの話するよって言ったやつ。

俳優のネットワークとか、性交渉のネットワークとか、なんかいっぱいあるんだけど、そういうので変態を炙り出していくっていう。

変態を炙り出していく。

ほんと、変態炙り焼き。

今流行りの暴露系ですか。

どういうことですか。

いやいやいや、暴露系のYouTuberなり、週刊誌なりが今世紀を賑わすじゃないですか。

なるほどね。

そういうことじゃない。

そういうことではないですね。

科学的な人と人との繋がりみたいな。

誰とエッチしたんみたいな。

っていうデータ、結構ガチの研究とかがあって、そういう話をしながら、人の繋がりをデータ化するの面白いよねっていう話をしていこうかなと思います。

楽しみです。とても楽しみです。

これは収録してる日から逆算すると、私ギリギリ29歳なんで、20代のうちに吐き出しておこうかなと。

OK、OK、OK、っていう感じですね。

やっていきましょう。

隣のデータ分析屋さん、今回も面白いと思ったらフォローレビューよろしくお願いします。

番組の感想や質問は、ハッシュタグ隣の分析屋、隣のがひらがなで、分析屋は漢字でお願いします。

また、概要欄に貼ってあるお手紙フォームからコメントを寄せてください。

ではまた。バイバイ。

スター

エピソードをシェアする

メッセージを送信

スター

コメント

こちらもおすすめ