1. TRY-CATCH FM
  2. 「ビッグデータ」はみんなが思..
2023-03-10 17:35

「ビッグデータ」はみんなが思っているほど必要ない?「Big Data is Dead」を読んでみて

【雑談】最近おすすめの漫画

BIG DATA IS DEAD -> https://motherduck.com/blog/big-data-is-dead/

---

Twitterアカウント始めました!質問やコメントなど受け付けています!

https://twitter.com/trycatch_fm

Peingを開設しました!質問や取り扱って欲しいテーマなど送っていただけると僕たちのモチベーションが爆上がりします

https://peing.net/ja/9045551273053f#question-form

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

00:01
みなさんこんにちは、ダイキャッチFMです。このポッドキャストは、IPMに同期入社し、現在は別々の企業で働くソフトウェアエンジニアの二人が、最新のテクノロジー、ライフハック、キャリアなどをテーマに、雑談形式でお送りする番組です。
久しぶりにちょっと、ハマっている漫画の紹介でもしようかなと思います。
僕ですね、あの人の漫画が非常に大好きでですね、正確な正確な名前ちょっと調べます。
正確な正確な名前が、
三田のりふささん。
三田のりふさ。
知ってます?ドラゴン桜の作者の人です。
あーはいはいはい。前もね、インベスターZの話とかしてたもんな。
そうそうそうそう。で、最近読んでるのが、砂の栄冠っていう本で、本じゃ漫画で、読んだことある?
あー野球のやつ?
そうそうそうそう。
なんかちょっとだけ読んだことがあったような気がする。読んでたアプリに来たかなんか。
あーなるほどね。簡単にあらすじ説明すると、高校野球の話なんですけど、
主人公の七島くんっていう人がいて、そんな強くない高校で公式野球部に入ってるんですよ。
で、一貫の時点で2年生で、3年生がまあ運良くそれなりに野球上手くて、夏の甲子園予選の決勝戦で負けたのかな?
で、でもその3年生抜けちゃうと明らかに戦力が落ちるので、甲子園とかも絶対無理でしょみたいな感じになるんだけど、
ってなってる頃に地域の老人から1000万円をもらうっていうイベントが起きて。
なるほど。
まあその老人は野球部のファンなんですよ。いつも練習見に来てて。
自分は先はあまり長くないからこのお金を使ってくださいみたいな。野球部のために。
で、じゃあ監督に渡せばいいじゃんとかっていう話になるんだけど、監督も結構なんかやばい奴で、なんかすごい尻尻浴に溢れてるというか。
だからあんまり信用できないから、あなたに渡しますみたいな感じで、1000万円受け取るんですよ。
その1000万円をどう有効活用して、その弱小高校を甲子園に連れていくのかみたいなのを、その次期キャプテンの七島くんが考えて、まあいろいろやるみたいな。
03:10
まあ大まかにそういう漫画なんですけど、要は朝日新聞じゃないですか。甲子園をスポンサーしてるというか、毎年開催してるの。
朝日新聞と甲野連っていうのが総講主みたいな感じでついてて、そこに各高校の応援団とかブラスバンドみたいなやつが応援してて、ミュージカルみたいな感じになってるんだよね。
それを楽しみに見に来る人がたくさんいるみたいな、ビジネスっていうとちょっとあれかもしれないけど。
まあ興行というか、そういう側面があるよね。
ミュージカルとか舞台総合芸術みたいなことを漫画の中で言われてるんだけど、だからそこのお客さんとかをいかに味方につけるかっていうのが大事なんですよみたいな。
そのためにちょっとさわやかな高校球児を演じるとか、そういったところに重きを置いて勝ち進んでいくみたいなね。
ちょっと腹黒さがあるみたいな漫画で、結構そこは個人的に面白いなと思って。
なるほど。チーム単位でその総合、工業に対して何かできるっていうような視点があるってこと?
まあそうだね、だからこれも結構当たり前かもしれないけど、守備に行くときは全力疾走とか、試合後のインタビューの受け答えとか、そういうのをあらかじめ戦略的にやるみたいな。
なるほど。
そうだね。それができるのは結構強いと思うんだけど、単純な戦力ダウンのところも金でなんとかしようって話?
それもね、ちょっとネタバレになるかもしれないけど、コーチを金で雇ってとか、金の使い方もあるんですよ。大事なポイントが。
確かに私立高校とかめっちゃ金持ってるから、そこでちょっとアドバンテージになってる部分とかあるんだけど。
結構ね、それの使い方でどこまで、配分とかも含めてどうやったら最適、最もコストパフォーマンスよく上に上がれるかみたいな話だよね。
今までやっぱり高校野球って爽やかなイメージがあるんですけど、実は裏側でこういう腹黒いことしてるやつがいるかもしれないみたいな視線で読むと面白いんじゃないかなという漫画なんで、ぜひちょっと読んでみてください。
はい。
06:01
じゃあ本題いきましょうか。
はい。
本題は最近、最近っつって2月ぐらいかな?に出た記事で、AI周りがすごい大ブームだったので、あんまり話題にならなかったような、まあでも結構なったのかなくらいの記事で、
ビッグレイザーイズデッドっていうのが上がってたんだよね。結構一部の人は話題にしてたので、僕も読んでみて、ちょっと初感というかね、話ができたらなと思って。
そう、俺もツイッターでタイムライン流れてきたの見たけど、中身まで読めてなかったんで、ちょっと簡単に解説してもらえると非常に嬉しいです。
はい。えっとね、だいぶ僕の初感も入ってるので、気になった人はぜひ読んでほしいんだけど、あとリンクはみやちにやっておいてもらうんだけど。
そもそもこれ誰が書いたの?何の話っていうのが、ビッグクエリの設立の時にチームにいた人、てか設立チームの結構メインメンバーの一人。
本に曰く、よその人たちと喋るのが好きな人はチームに俺しかいなかったみたいなこと言ってて、なので大概アピールとかをこの人がメインでやってたらしいっていう人のブログから出てきた記事ですと。
どんなものかっていうと、ビッグデータイズデッドっていう通り、今まで結構ビッグデータはもう誰にでも絶対必要で、こういうもんだぞみたいなことを言ってたのが、実はちょっと思ってたのと違ったんじゃない?みたいな話。
なるほど。
でも割と結論、僕が読み取った結論というか、書いてあったような気がするけど的なところで言うと、ちゃんと設計してというか、ちゃんと定義した、定式化したデータでかつ直近のデータが最重要。
なるほどね。
ほとんどの人、企業にとっては。
はい。
本当にどでっかいデータっていうよりは、ちゃんとした最近のそこまででかくないデータがほとんど大事なので、実はビッグデータってそこまでみんなに必要なものではなかったんじゃないかなっていうような話だと思ってます。
なるほど。
そうだな。流れの話をバーッとしちゃってから、なんか気になったところ、途中でつついてもらってもいい?
はい、了解です。
話していこうか。
もともとこの人はさっき言った通りビッグクエリ周りでタイガーアピールとかもした人なので、ずっとビッグデータの波が来るぞって特別な方法じゃないとそんなものさばききれないよっていう感じの警鐘を鳴らしながら広めていってたわけなんだけど、
そもそも多くの企業ってデータウェアハウスとか持ってるんだけど、そのビッグクエリを使ってる企業の統計をとってさら、みんななんかテラバイト級とかには実は達してないなっていうことに気づいたらしいんだよね。
なるほど。
で、しかもその分離して考えていくとみたいな話で言うと、ストレージとコンピューティングっていうそれぞれの側面で見ると、ストレージが膨張してもコンピューティングって意外とそんなに膨張してないよなっていう気づきもあったらしい。
09:06
なるほど。
なるほど。
なるほど。
はいはいはいはい。
10ギガから上。
10ギガっつってもね、できるものもあるじゃんっていう話もあるので、そのレベルはもう1%くらいしかないです。
しかも本当に大規模な企業では、そんなに、そんなにでっかいクエリって使われてなくて、半規模な企業のほうが多いし、
それを大規模でも中規模でもどっちの企業で使うのでも主にレポーティング目的なんだよね。
はいはい。
だからパフォーマンスそこまでそれくらいじゃない。
確かに。
その金曜日にかけて月曜日にあればいいとかそういうレベルのものが本当にティラバイト 級のクエリとかそんなもんだって書いてあった
なるほどねー しかもその超大規模クエリ
いうて高いらしいと あのもうそのアピールよ pr 用に使ってたあのまあだから本当にでかい奴
普段そんな使わねーよみたいなレベルのすごい奴とかだとペタバイト級のクエリ とかもあの
pr 用に使ってたらしいんだけどそれだと1クエリ5000ドルとかするらしいんだよね うーん
ああそれはそんな使えようなっていう感じのところもあって本当にでかいものでそんなに ないし
パフォーマンスがそんなにその即座に求められるような普段のシステムの中で走っているの もんでもないよね
いうようなことがありましたしかもそのクエリが小さくなる理由みたいなところ 僕らも db の設計とかの時に結構苦労しながらやってると思うんだけど
あの実際にシステム状態を知らせるクエリとかって インデックスあってあのパーティションがどうやら何たらしてみたい
あの狭い範囲狭い範囲でちゃんとその えっと収まるように作るよね設計するよねっていうことででも db エンジン
がもうさその辺頑張るじゃんっていうところもあって意外とクエリってでがくなんねーな っていう話になるらしいんだよね
そうだねーそこは確かにある 特に後しレポーティング目的以外のところのほとんどのクエリ
の方で使われるものでまあレポーティングじゃない あの普段システムとして使うのはから当然なんだけどまあ直近のデータがほとんどだよ
12:00
っていう話がある確かにね24時間以内のデータが大部分 あの紹介されるデータの中では大部分らしい
1週間前のデータになると24時間以内のデータに比べて紹介される確率 えっとまあ参照される確率が20分の1まで落ちるそうです
1ヶ月前のデータはもうほぼ見られないそうです なのでえっとまあそういう側面をあの
まあてか僕らも別にシステム作るだけはできるだけそうなるように作ってるしそういう 側面もクエリがそんなに大きくならないことの今いい
一つの要素なんだよねっていう話 なるほどね
だからで設計するってなるとアクセスさしもう全然しないよねっていうことも想定に 組み込んで古いものを圧縮するみたいな
話そうするとテラバイトのペタバイトのギガ単位に落ちる可能性があるわけだよね 画像とか映像になると別だけどあのちゃんと
なんだろうな構造化されたデータって圧縮するとすごい縮まるので あのそういう設計もあるでしょうと実際僕は ibm の頃そういう運用設計
あの今これ db 毎日こういうデータ入ってくって想定してますけど あの言うて無限にストレージ増やさないですよねっていう話とか
5年前の履歴ってその場で紹介できないといけませんか 法律的に実はあのカウンサーとかで本当に求められた時に後から出すあの
用意書って出してくればいいもんじゃないですかっていう話とかもして なるほど何年分はアーカイブとしてあの
なんだろうな圧縮してというかこっちにストレージの方に入れちゃいましょうね db に入れるのやめ ましょうねっていう
ブーブーから消そうって話ねはい あのログで言ったら8圧縮してえっとローテイトしてってローテイトしてってで最終的にローテイト
じゃないかその日付分とかも昔のやつはを圧縮してどんどん ストレージの方に入れちゃいましょうね
まあ結構運用設計として検討したことはあるくらいだしそういうことは実は前からあったんだ けどそれが結構顕著になってきたに来てるんじゃないっていう話とか
ブーブー言います まああとちょっとビッグレーターで何だっけって話もちょっと触れると
なんか2004年くらいから言われているのかな 一致1台の pc に収まらないものは何でもビッグデータみたいな
まあ定義の一つとして言ってたらしいんだよね そうなると当時の pc の中は何ギガバイトみたいなストレージとかメモリー
あの間にギガ4ギガとかのさ1台の pc のスペック から考えるとまあそのラムとしてもログとしても今桁違いに上がっているので
さっきのなんかさあの何十ギガとかさん何百ギガみたいな話だったら できるくね一致のピーシーでしかないし
なっちゃうんだよねからその意外とブルーオーシャンじゃないな あのビッグデータってみたいな話がじゃんあるらしい
っていうのとあともともとそのビッグデータってものができるようになったのもその コストがどんどん落ちていってあの
ストレージって昔よりだいぶ安くなったからデータを貸しするコストが何かを捨てる コストよりも低いんだよ
15:00
もう取ってねとりあえず取っとけばって方が楽だしコスト差が低くねっていうのが まあね
そう定義かつモチベーションだったらしいんだよね だけど意外と保持してるだけでいいってわけじゃないなっていうのもあって
あの個人情報のやつもさ昔より厳しくなってるし EUがなんかよくわからん基準作ったりとかいろいろあったし10年でも
法的なリスクが保持してるだけで結構上がる 長引くみたいなもうデータとしての塞いみたいなものも結構あるっていうのと
何を保持してるんだっけっていうことを把握し続ける難しさ みたいなのもあったりデータの持ち方3年前に変えましただから集計の仕方は3年
前までと今で違いますみたいな その辺も難しいとか
ずっと db 同じ db に全部保持した場合何かのバグでさ あの過去のデータ全部書き換えちゃいますパグみたいな発生した時に
全部書き換わっちゃって8なんかどれまで直されていけないだけとかになるか そういういろんなリスクみたいなものが実はあるよねっていうことであの
全部持っとくっていうよりはちゃんと設計してちゃんと検討してあの集 した結果集計したで結果のみ生データとかじゃなくて集計した結果のみを持ってる
っていうのが結局いいんじゃないっていうのがこの人の提案の つってはなるほどねー
いやー の記事でした
シュシュうなずきながら聞いてたら私からねー しかもこのまあビッグクエリア所が入ってるって言うのさ
なんて説得 欲があるよねそうなったよねまぁでもなんか
ip もいた頃を言うてなんかでデータの 周りの設計とかでやる機会があったというか教えてもらえながらやる機会があったんだ
けど一緒に言うてこういうことを考えた気がするなと思って なるほどね意外とみんなこういこうじゃねえかなと思ってたんだけど
ビッグクエリの人まで言うんだからマジでそうなんだってなったっていうのが結構話題な ちょっと話題になった理由なんじゃないかなって
はいではいいよね はいって感じなんでえっと最後に8
5つの質問なのかな8 本当にあなたがビッグデータを必要としているのかっていうのがわかるような診断みたいな
質問があるので気になる人はね その質問を見ていただければ
url 貼っておくんではいぜひ見てみてください ほいじゃあ終わりますかはいこんな感じで週に1回のペースで配信しているので
アップルポッドキャストもしくは spotify でお聞きの方はぜひフォローお願いします では今回も聞いていただきありがとうございました
はいありがとうございました
17:35

コメント

スクロール