隣のデータ分析屋さん。
この番組は隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁを叶えるポッドキャストチャンネルです。
データアナリストのりょっちです。データサイエンティストのたっちゃんです。
データブリックスの話をしていきますよ今日は。
知念度はどうなんだろうね。どうですかね。
ただ11月の14日にあったこの話をするきっかけでもあったデータブリックスのワールドツアーの東京行ってきたんですけど人はすごかったですよ。
ワールドツアー。
正確に名前を言うとデータプラスAIワールドツアー2024in東京っていうデータブリックスがやってる。毎年やってるんですよねワールドツアー。
それの今年のやつですね。どのくらいいたんだろうな。
のべ1万くらいなのかな。
すごいね。
いましたね。
やった場所もANAインターコンチネンタルホテル東京の赤坂にあるところで。
インターコンチだすごいとこでやるね本当に。
そこでいろいろなデータブリックスの最新技術の話とか導入している企業のうまくいった事例データ活用の事例とかAI活用の事例とか
っていうのがこう共産企業とか導入企業が話してる。
熱量は高かったしやっぱりデータブリックスの面白い機能をいろいろ出してるなーっていうのがあったんで今日はその話をしたいなと思いますね。
データブリックスがマジどれくらい知られてるかっていうのが結構道数っちゃ道数で。
正直勢いの割に国内の知名度は低いんじゃないかなとは思ってるんだよね。
そうっすよね自分も正直今の会社のプロジェクトやってない限りデータブリックスに会うことはなかったから本当に使ってる人以外は正直どんなサービスかってパッと分かんないんじゃないかなと思います。
でももうユニコーントップクラスのユニコーン企業じゃないですか。
いわゆるデカコーンって言われる。
スペースXの次ぐらいじゃなかった?
あもうそこまで言ってんのか。
え多分ね。
多分ね企業価値で5兆6兆の世界なんですよね。
多分データブリックスは結構スペースXに次いでぐらいの感じだと思うんだよな。
いわゆるデカコーン企業ですよね。
だから世界的に見てかなり注目されてる企業価値の高いいわゆるシリコンバレーとかにある会社になってくるんですよね。
サンフランシスコで毎年このデータブリックスのワールドツアーの前にAIサミットかな。
いわゆるカンファレンスがあってこれは年一回やってるんですけど。
それもものすごい盛況で自分のチームのメンバーも行ったりしていてかなり盛り上がってたよって言ってたんですけど。
同時期にスノーフレークって言われるデータブリックスの競合にあたる会社も同じサンフランシスコでイベントやってて。
そうなんだ。
バチバチになってるようなどっちもお互いユニコーンでデカコーンに値するかなり注目されてる会社なのかな。
そうだよね。スノーフレークとデータブリックスってそんながっつりか。
データ管理とかいわゆるデータ基盤みたいなところだと結構被ってくるような。
まあでもそうだね。俺両方使ったことあるわ。
そうなんですね。自分スノーフレークはなくてデータブリックスだけですね。
そうなのよ。どっちも使ったことあるからなんとなくは分かる。
でもまあ確かにそうだね。ついにはなるか。
そうなんですよ。ここがやっぱり今何で注目されてるかみたいな話からしていこうかなと思うんですけど
データを扱う事業者ってこれまではクラウド事業者みたいな感じでAWSとかAzureとかGCPっていわゆる三大クラウドみたいなところが
クラウドでインフラ作るみたいなところが注目されてガーッと伸びてきたんですけど
今ってそこを超えてデータブリックスとかスノーフレークみたいな
データをどう活用していくかみたいな技術がすごく伸びていて
これなぜかっていうとデータそのものはさっき言ったクラウドに置いとくんだけど
そこに置いてるデータをデータブリックス上で加工したり分析したりAIを作ったりとか
そういうことができるようになってくるつまりそれぞれのクラウドをつなげてそこからデータ吸い上げて分析できるよみたいな
そういう使い方をするのでクラウドに寄らず使える技術ってところがすごい注目されてるのが一つポイントなのかなと思いますね
そっかだから多分俺が使ってた環境だとたまたまその恩恵を受けてなかったからその使い方のイメージがないのかな
単一クラウドとの接続だけの範囲で使ってる人もいるよねきっとね
全然いると思いますねむしろその事例が一般的かもしれないまだ
でもまぁどうだろうなグーグルクラウドとかだったらもちろんグーグルクラウド内である程度完結するように作ってあるじゃん
バーテックスAIワークベンチあってまあノートブック開けるしそこからねあのソフト化もできるしみたいな感じになっているから
まあ単一だったらもしかしたらクラウド内で完結しててもいいのかもしれないよね
その方がもしかしたらコストがかからなかったりデータ読み書きのスピードみたいなところのがボトルネックになることはないから
小規模中規模でプロダクトを作ったりしているような会社だったらもう単一クラウドにデータを置いて
そのクラウドのAIとかデータ活用のサービス使って開発してるっていうケースが多いかもしれないですね
今回このデータブリックスの事例紹介みたいなところで結構老舗の事業者が発表していて
なるほどなと思ったのが何十年もやっているようなデータ活用の事業者って実は各部門が独自にクラウド契約をしていて
それぞれのクラウドにデータが置かれているストレージにデータが置かれているみたいなのがあると
そのデータを繋いで分析したいみたいなところがようやく最近このAIの発展というか
AI活用みたいな文脈で出てきてじゃあどうやってやればいいんだろうみたいな
っていうところのソリューションとしてデータブリックスが使えましたっていうユースケースがあったので
そういう時にはかなり使いやすいサービスなんだろうなっていうのは結構納得感がありましたね
そうなんだだからクラウドを全部まとめるような動きをした時のスイッチングコストよりも
データブリックス入れて別にどこのストレージに入れていても
一元管理というか一括分析できる場所が作れるんだったらその方がいいかという話
そういうことなんですよ
まあ確かになAWSベースでやってたのにいきなり
じゃあちょっと会社の方針でGoogleクラウドにしますとか言って
映したら使える呼び出しのコマンドも全部ここ変えなきゃいけなくて
パスも変えなきゃいけなくてとかってなるぐらいだったら
今後の開発はデータブリックスですって言われた方がまだまだ
ああなるほどね
データブリックスもそこそういう需要ニーズに対してちゃんと技術の開発をしていて
データの所在は各クラウド例えばAWSだったらS3とか
AzureだったらBlobストレージとかそういうところのストレージに置いといて
そのデータはそのままでデータブリックスって
新しいデータレイクハウスっていうデータ管理の概念を作って
データの実態は持たないんだけど
メタデータみたいなどこに何のデータがあるかみたいな情報だけ
管理してすぐ読み書きできるような仕組みを作ってるんですね
だからデータの入出力にかなり時間がかからずにすぐ
データブリックス上で分析ができるっていうのがあるので
あんまりストレスにならずにクイックに分析できるみたいなところが
すごい使いやすいポイント
データレイクハウスは言葉としては認識してて
めっちゃややこいの出てきたわって思った
そうなんですよね
前なんかpodcastで話したよねデータレイクと
データウェアハウスかな
ウェアハウスとみたいな
ありましたねデータ基盤の話をしたときに
生データをどこに置いて一旦加工して使いやすいデータを
どこに置いてみたいなときにデータレイクデータウェアハウス
データマートみたいなそういう3つの階層でデータ持つのが
今ここ最近だと終了になってくる考え方です
って話したんですけど
なんだよレイクハウスってみたいな
データブリックスはデータレイクとデータウェアハウスをくっつけちゃって
データレイクハウスっていう概念を
これ我々が作りましたってすごい強調してたんですけど
イベントの中でも
一般概念の言葉じゃないんだあれ
多分今は一般概念になったのかもしれない
データブリックスが言い始めたことで
すごいな俺も作りたいわオリジナルの言葉
組み合わせで生み出すみたいなイメージですかね
だからこのデータレイクハウスっていう概念を作ったことで
データの所在はどこであれ
すぐにデータブリックス上でデータを呼び出すことができるようになったっていう
そういうメリットがありますよっていうところ
SQLとかで簡単にクエリを叩いてデータ引っ張ってきて
データブリックス上で可視化したりグラフ作ったり
あとはAIのモデルを作ったりとか
っていう使い方これが一つ
クラウドが先に出てきて
みんな使うようになった後にどう
この状況を使って
データ活用のサービスを作ったかみたいなところを
後から作ってうまくいった自衛の会社なのかなっていうイメージですね
そうだね
日本の会社とかだとさ
普通に各部署で契約しちゃったみたいなケースになると思うんだけど
多分それこそでかい会社とかで
ある程度まで自社のサービスで上がっていった後って
買収とかのペースも上がってくるじゃん
で買収した後が多分問題なんだよね
買収先のデータ構造ってさ
それはそのサービスが回るように作ってるから
そういうことなんだ
なるほどね
俺は結構ねスパークネイティブっちゃスパークネイティブなんだよ
そうなんですかね
俺ら独自でさ色々機械学習のモデルこうやって作れるみたいなさ
やってたところからちゃんとシステマチックに開発しようっていうのを
初めて覚えた時にもうスパークがあったからその中に
だからこうやってやるんだって思ってた
そうなんですね
スパークがあると正直どんな大きなデータサイズのものでも
処理って流れるじゃないですか
流れる
あれって結構革新的というかすごい感動的じゃないですか
びっくりした
ですよね
おえーと思って
それでもこんなかかるんだっていうのも思ったしね
逆にね
確かに確かに
コンピューターがフリーズとかせずにちゃんと
コンピューターの数だけ確保すればどんなデータでも
時間はかかるけど処理は動いていくっていうものだから
これすごいよなと思っていて
で今はそのスパークの技術を使いつつ
データブリックする上だと構造化データだけじゃなくて
画像とか音声もちろん文字自然言語も一括で
管理しつつ全部分散処理のスパークを使って
処理を流せるっていうようになっていて
なるほどね
そうだからこれもさっき言ったデータレーカーハウスと
スパークの組み合わせで
どこに置いたデータでも早く呼び出して
それを処理させるっていうところが
かなりスムーズにできるっていうところが
やっぱりデータサイズが大きくなってきている状況でも
処理ができるってことはかなり有用というか
開発者目線だとやりやすいポイント
なんかやっぱこう
データでビジネスをスケールさせるっていう言葉に
ぴったりの機能だよね
そうですね確かに
データ量がスケールしない仕組みでやってるところって
結構あると思うんだよね
データの量が増えてしまったら
もうこれ以上立ち行かなくなるみたいなことですよね
そうそうそうそう
あると思うなあ
まあその壁にぶち当たる前段階のサービスが多い
っていう話でもあると思うけど
なるほどね
分散処理でがっつりやらないといけないぐらいのデータ量を処理する
例えばモデル構築のタスクが
必要なビジネスが世の中にどれぐらいあるかっていうのもあるじゃん
確かに確かに
実際なんかそのもちろん
中規模のサービスであっても
スパークでちゃんとが噛んでいる状態で
分散処理させてやる方が
効率化はしてるかもしれないけど
それじゃないともう成し得ないっていうレベルのビジネスって
結構限られるじゃん
そこまで必要ないっていうケースも全然あるってことですよね
CWX使わずとも
極論なんかデイリーで更新されるデータに対して
学習時間が24時間かかります
みたいなものって最悪もあるじゃん
別に分散させなくても
エラーが入った時に修正する時間のマージンが欲しいとかで
短縮しなきゃいけないけど
極論でもそういうことだから
24時間でさばききれない学習とかモデル構築のプロセスが
必要な業務が一体どれぐらいあるか
みたいなところを考えると
本当にスケールさせなきゃいけないレベルのものなのかな
っていう話もあるよね
間違いないですね
やっぱり中小企業とか
そこまで事業の大きさがない
そこまで大きくない企業は使わなくていいんですけど
一方でもう本当に全国民
全世界中がユーザーみたいな
いわゆるでかいサービスになってくると
必要になってくる技術だと思っていて
データブリックス使っている
データブリックス側から見たいわゆるお客さん
っていうのはやはり日本でも
名の知れた企業がゴロゴロいるんですよ
今回のワールドツアーの東京のやつでも
公演するお客ユーザーっていうところが
かなり名の知れたところで
一つはローソン
あーはいはいはいはい
みたいなコンビニエンス事業をやっている人たちは
かなりのお客データを持っていたり
商品データを持っているから
そうだね
ポスデータの量やばいよね
そうなんですよ
ここくらいの規模までいくと
そりゃまあ使わないとやっていけないよねっていう
データブリックス使わないと処理回んないよねっていうのは
確かになると思っていて
確かに他どんなとこいるんだ
あとはコンサルティング会社で
デロイトが公演してましたね
あとはQTポイント
今もうVポイントになっちゃってるんですけど
はいはいはい
を運営している
CCC
CCCですそうです
俺インターン行ったことある
あそうなんですね
行ったことあるよ
大学生の時に
マーケティングのインターン行った
でもまさにそのマーケティング活用のデータとして
そのVポイントを持っているユーザーのデータを
一元管理して分析してっていうのに
データブリックス使ってたり
へえそうなんだ
って考えると日本の中だけでも
数千万ユーザーみたいなオーダーで
ユーザー数抱えているような企業が
使ってるからやっぱ話してる内容もインパクト大きいし
面白いんですよね聞いてても
へえちょっと登壇者リスト見たいな
ぜひぜひ概要欄に貼っとくんで見といてください
どんな企業が出てたかとか見れると思うんで
通信系もそうじゃない
通信系はドコモが協賛というかスポンサーになってたんで
使ってますねNTT系の事業の
何に使ってるか自分は公開見れてないんであれなんですけど
面白いですよローソンの事例とかは
取りだったんですよ今回の
へえ
愛子って言われるシステムを
今年の4月からリリースしていて
これがいわゆる需要予測と
あと発注業務の最適化をやるシステムで
あ俺それなんかで見たかも
本当ですか
ローソンの発注自動化がめちゃめちゃおもろいみたいな
記事どこかで見たな
めちゃめちゃおもろいですよ
全国14000店舗に対して各店舗の商品だいたい400商品くらいに対して
1時間単位でどの商品が売れるかっていうのを予測して
でどれくらい補充をしなきゃいけないかっていうところまで
すべてAIが出してるっていうシステムなんですけど
へえ
これをどういう風に発注したら一番在庫切れがないか
機械損失がないかみたいなところで最適化かけるんですけど
ここのシミュレーションを何万回何千回何万回かけて回していて
これ1時間単位でやってるんですよ
え
なのでかなりの計算量が必要で
これはデータブリックしないとできなかったっていう
開発担当者の人も言っていて
確かに
あーじゃあそれはもうさっき言ってたまさに
分散処理で高速化させる
させた先にある時間要求が1時間だから
絶対に高速化させなきゃいけないタスクだね
いやそうですそうです
はえー
いいコメント残してたな俺
でもそうですよ
伏線だ
本当にデータフリックスじゃないとできないような
いわゆる分散処理技術があるからできたサービス
それは鳥だわ
ですよね
規模も大きいですし
そこに至った現場の人とのやり取りだったりとか
難しさ発注業務の難しさとかって話ももちろん
公演の中で言ってたんですけど