ストリーミングデータベース Apache Kafka の勘所とは？

00:04

スピーカー 1

皆さん、こんにちは。London Tech TalkのKen Wagatsumaです。

イギリスのロンドンで、ソフトウェアエンジニアとして働いています。

このポッドキャストでは、Yosuke Asaiさんと一緒に、海外転職や最新の技術トレンドについて話していきます。

スピーカー 2

よろしくお願いします。

スピーカー 1

よろしくお願いします。

スピーカー 2

今日はですね、Kafka編ということで、Kenさんが一度Cookpad時代に、Kafkaのプロジェクトをリードされていたという話を伺っていたので、

今回、自分もKafkaのことをより詳しくなりたいなっていうことを思っていたので、お願いして、Kafkaの話をしていこうと思います。よろしくお願いします。

スピーカー 1

よろしくお願いします。いいですね。大好き。データベースの話は好きなんで。

こういう会話ができるのを待っていました。

スピーカー 2

よかったです。

自分の歌詞でも、Kafkaを導入していきたいなみたいな話があって、自分も勉強したいなと思っているので、ぜひ、いろいろ聞かせてください。

はい。

まずは、Kafkaについて、Kenさんが、Kafkaとはっていうところを聞いてみたいなと思うんですけど。

スピーカー 1

だから、聞いたほうがいいと思います。

そうですね。

スピーカー 2

Kafkaとは何ですかっていうのを簡単に説明されたいと思うんですけど。

スピーカー 1

はい。

なんか、前、コミュニティとかで、ちょっと、Apache Kafkaの勉強会しようかなと思ったけど。

はい。

なんか、あんまり興味ある人いなさそうだから、そもそもKafkaって、多分、ソフトエンジニアの中でも、アプリケーションとか書いてない人にとっては、何?って感じだと思うんだよね。

うん。

っていうことで。

そうですね。

そう。まず、Apache Kafkaっていうのが、データベースの一つですと。データベースにもいろんな種類があって。

よく聞くMySQLとか、OsgreみたいなRDBMSとか、あとはNoSQLっていわれるやつで、いろいろあるんだけど。

Kafkaは、その中でも、ストリーミングデータベースといわれるものの種類の一つですね。

なので、一言で言うとストリーミングデータベースって何かな。

スピーカー 2

ストリーミング。

スピーカー 1

うん。

スピーカー 2

ストリーミング。

横流ししていくために使うというか、一時的な置き場として使うみたいなイメージですか。

スピーカー 1

そう。よく言われる特徴の一つとしては、既存のMySQLみたいなRDBMSとストリーミングデータベースの一番の大きな違いっていうのは、データが無限に入ってくることを想定している。

だから、ストリームっていうのは、小川とか川の流れっていう意味なんだけど。

03:03

スピーカー 1

うん。

その流れのように、連続的にデータブロックがどんどんどんどん入ってくることを、それを処理するということを想定されたデータベース。

うん。

スピーカー 2

じゃあ、限界がある意味ないっていうか、当然あるけど、限界なくても大丈夫なように作られてるってことですか。

スピーカー 1

それを、そうだね、想定している、作りとかAPIになっていて、例えばRDBMSとかだと、例えばトランザクションを開いて、その中で必要な処理をいろいろアップデートしていく。

うん。

いろいろアップデートをゴニョゴニョしたり、デリートをゴニョゴニョしたり、トランザクションを閉じて、ガッと書き込みをするみたいな感じなんだけど、カフカとかストリーミング志向のデータベースっていうのは、例えば、何だろう、無限に発生するデータ、例えば現実世界で言うと、例えば株価のティック、株価の値が、基本、連続的に入ってくると思うんだけど、それをどんどんデータブロックとして入れて、やり取りをするとか、あとはIoTのデバイスから入っていく。

例えば温度とか湿度みたいなセンサーデータを、1年中入ってくると思うんだけど、それをデータベースに入れて、それを処理するとか、そういったユースケースに向いている。

一つ一つのデータは、基本的にイミュータブルな小さな、変更されない小さなブロックのデータが入ってきて、それを処理する、ストリーミングデータベースっていう形になるかな。

うん。

スピーカー 2

じゃあ、カフカの中で、なんか、そのデータを処理する。

うん。

と思った人が、何か編集するとかはしない。

っていうのが基本にある。

スピーカー 1

そうそう。

カフカとしてはそうだね。

うん。

なので、ユースケースとして、例えば僕がWeb企業で働いているけれども、まあ、よくある、結構いろんな所で使われてて、大きい所だと、CDNAのCloudflareとかでも使ってたり、

多分、Facebookとか、そういうネタか、とかね。

はい。

一部でも使ってたりするしロンドンとかだとワイズトランスファーワイズ

級フィナンシャルフィンテックの会社とかフィンテック系とか

でも多いんだけど例えば

スピーカー 2

センターのアーキテクチャー見ったときにもカフカ使ってるみたいな

話ありましたよ

スピーカー 1

あった気がするねあったと思うあったと思う僕の今の会社ももちろん使ってる

で例えばiOSとかAndroidとかWebとかクライアントのログ基盤のまず

受け渡しとして使ったりとかが多いかないろんなクライアント

からまずApacheかフカのデータベースなので普通にサーバーが動いて

てそこにどんどんどんどんデータを流してそのデータを入れる人

たちのことをログをプロデュース生成するということプロデューサー

って呼ぶんですね

はい

ストリーム川に水をどんどん流す人たちのことをプロデューサー

プロデューサーって言っていてそのプロデューサーが好き勝手に

06:04

スピーカー 1

どんどんどんどん自分が投げたいデータを小川に流していくんですね

でそれはプロデューサーっていうのはデータを流すだけ

その反対の概念としてあるのがコンシューマー消費者ということで

それは小川の下流のほうで待ち構えていて

川を流れてくるデータパケットを自分が欲しいやつでもとりあえず

全部取って取った上で処理していくっていう感じのプロデューサー

とコンシューマー

でなんでカフカみたいなものがそもそも必要となるのかストリーム

データベースが必要になるのかっていうポイントはデータを生成

するプロデューサー側とデータを消費するコンシューマー側の

間にバッファリングとかができる

この別のレイヤーを入れたいからなんですよねスケーラビリティ

の観点

例えば逆にイメージしてほしいんですがいろんなiOSとかAndroidとか

IoTデバイスから大量のデータ送られてきてそれを処理してじゃあ

レポートを作るバックエンドサーバーがあるとしましょう

そのバックエンドサーバーが全部世界中にあるデバイス数十万の

デバイスからデータを受け入れるっていうことを考えるとそのバックエンド

のサーバーは入ってきてるんですよっていうところがあるんですよ

データのビジネスロジックを入れてデータをごにょごにょするっていう

ところだけじゃなくて大量のデータが入ってくるのを分散処理でスケーラブル

に対応しなきゃいけないっていうこのスケーラビリティのことも

考えなきゃいけない

データを生成する側のワークロードとデータを受け取る側のワークロード

アンバランスっていうのをどこかで吸収しなきゃいけないんだけど

それをカフカみたいな真ん中に大きなパイプみたいなものを入れ

たりみたいなストリームを流す川みたいなものを作ることによって

そこのワークロードの違いを吸収することができる

だから例えばストリームの流れでいくとそこにダムを作っていく

ようなイメージですねプロデューサーがどんどんどんどんログを入れて

いくとでも受け取るコンシューマー側が追いつかないことってある

と思うんですよねそういうときには例えばApache Kafkaっていう真ん中

の層があって例えばプロデューサー側に

今下流の人たちがちょっと君たちがデータを送りすぎてて処理できない

からちょっと待ってよってことで入ってきたデータパケットをドロップ

したりとかあとはリジェクトしたりとかあとはバックプレッシャー

っていってちょっと待ってねみたいなちょっと速度下げてねみたいな

シグナルを出したりとかそういったことをするんだけどそれを

カフカのストリーム処理として抽象化していくことでいろんな

ビジネスユースケースに対応できるという形になっている感じかな

スピーカー 2

上流側で凄い処理が多いときとかに下流でも対応するためにでも下流

09:01

スピーカー 2

側でさらにスケールアップするような時間がかかったりするから

それをカフカでいったん止めておくこともできるということですか

スピーカー 1

ね

そうそうそうもう一つのプラクティカルなメリットとしては一つの大きな

本流みたいな川があってそこに全てのデータが流れてくると思

うんですけど

例えばビジネス要件って結構いろいろで同じIoTデバイスのセンサー

データが入ってくるんだけど例えばそれをレポートとして見るビジネス

側のチームとあとそれをメトリクスとってディベロッパーチームがあって

それぞれ同じデータなんだけどどうそのデータを何だろうねメトリクス

として取ってディベロッパーチームがあってそれぞれ同じデータなんだけど

でコンピューターの中で形成してレポート作りたいかっていう

コンシューマー側の要件が違うことってよくあると思うんですよ

ね

はい

そういうときにストリームを例えばファンアウトっていう形

で同じデータパケットをそれぞれ別の支流に分けてコピーして分け

てこっちのチームではレポートの中データパケットの中で必要な

ものだけを作って彼ら独自のレポートを作り別のチームではデータパケット

の中で必要なものだけを作って彼ら独自のレポートを作り別のチーム

では別のチームでは別のチームが必要なデータパケットだけを

使ってレポーティングを作りみたいな感じで川の流れをどんどんどんどん

分けていくことによって下流の細かい違うビジネス要件のチーム

たちが同じデータを好き勝手使うことができるっていうそこの抽象化

をすることが Kafkaみたいなストリーム処理を使うとやりやすいという

形になってるんですよね

Kafkaの中でフィルタリングみたいなのができるっていう

フィルタリング

フィルタリングもいいですし例えば Apache Kafkaのコンシューマーを作る

ときに単純にファンアウトっていうのは扇ファンですね内輪みたいな

扇をアウトさせていくみたいな感じで同じデータを複数の支流

スピーカー 2

にコピーしていく感じなんですよね

このデータをここにコピーしていってこのデータをここにっていう

のが設定できるっていう

スピーカー 1

そうそうそうとりあえず必要なデータをまずバーンと流しといて

下流側で

必要なデータを必要に応じてもらってきてそこでフィルタリング

したりとかなんでかなり抽象度の高いレイヤーなので結構ユースケース

でいうと業界はもうFintechとかに限らずいろんな業界で使われ

やすいしいろんなところでユースケースがよく効くかな

スピーカー 2

ちなみにファンアウトとかの設定をするのにそのコンフィグ

ファイルみたいなのを開けば必要なデータを必要に応じてもらってきて

いるのかっていうところはできるんですかそれともコードを書いたり

スピーカー 1

して設定していくんですか

12:02

スピーカー 1

ファンアウトに限って言うとまだ前半なのでどこまで突っ込むか

例えば Apache Kafka で Kafka Connect っていうAPIがあって Kafka Connect っていうAPIは今言ったよね今言った

でしょ

うん

AmazonのApkってことですか

AmazonのApkってことですよね

データのパイプラインをいろいろつなぎ込みやすいような

抽象化されたAPIなんですけど

例えばそのカフカにとりあえずデータを入れて

その後に例えばイラスティックサーチに入れたいですとか

イラスティックサーチの別のデータベース

他のRTBSに入れたいですとか

あとは別のカフカからカフカに流したいですってことって

よくあるんですよ

例えば他のカフカからカフカに流したいっていうのは

とりあえずUSリージョンで受け取った全てのデータを

ヨーロッパのリージョンにコピーしたいですとか

あとはヨーロッパとAPACから入ってきたリージョンの

アグリゲートを集約して告知に流したいですとか

そういったときに今までだったら

そのコンシューマーのアプリケーションを書いて

カフカのAPIを直接叩いてデータを持ってきて

コードゴリゴリ書いて

JavaとかGoとかでそれを集約して流すみたいなのだったんですけど

そのアプリケーションを受け取ったら

カフカとつなげる先のデータベースで

ある程度パターン化していくんですよね

イラスティックサーチとつなげたい人とか

別のカフカとつなげたい人みたいな

そこのつなぎ込みをさらに抽象化する

バッチカフカのコネクトっていうのができて

それを使うと実装コードが減る場合が多いですね

例えばカフカに受け取ってきたものを

イラスティックサーチに出して検索に使いたいみたいなときに

今までだったら自分でコンシューマーを書いて

カフカのAPIを叩きゴニョゴニョして

ライトのAPIを叩くみたいなのを

自分でゼロから書かなきゃいけなかったのが

コネクトAPIがサポートしていれば

実装が少なく書けるケースが多いっていう感じですね

スピーカー 2

システムが発展してきて

やることが減ってきたという感じですかね

スピーカー 1

そうそう

さっき言ったデータをコピーするみたいなやつも

すごいよくある要件なので

ファンアウトとかね

カフカコミュニティ自体が

ミラーメーカーっていうソフト

バイナリーを出していて

それはもう名前の通り

一つのカフカの中のデータを

別のカフカにコピーするっていう

それをもうすごく上手にやってくれるっていう

バイナリーがあって

そのミラーメーカーも実は

バージョン2だと新しいバージョンだと

裏側ではカフカコネクトのAPIを使ったりするんだけど

そういうふうに

カフカコネクトとAPIを上手く使うと

可能な限りコンフィグファイルを書いて

15:01

スピーカー 1

そのプロセスをデプロイするだけで

Apache、カフカに返ってきたデータを

上手く継ぎ込めるっていう感じになってる

スピーカー 2

どんどん便利になっていってるんですね

スピーカー 1

面白いスポットだな

やっぱり使うデベロッパー側のユーザーエクスペリエンス

デベロッパーエクスペリエンスを考えて

結構いろいろ頑張ってる印象はありますね

いいですね

うん

スピーカー 2

ちょっといろいろ頑張っていきたい話もあるんですが

一旦けんさんがカフカにどうやって関わり始めたのかとか

そういった話を簡単に聞きたいなと思うんですけど

スピーカー 1

僕が最初に

何年前になるんだろう

2000

忘れてしまった

日本にいるときなので

15年前かな

まずストリーム仕事を

ストリーム仕事を

スピーカー 1

ストリーム仕事のデータベースで

AWSが出してる

Kinesis Streamっていうやつがあって

聞いたことありますか

Kinesis

スピーカー 2

データパイプラインとかのサービスですかね

スピーカー 1

そうそうそう

AWSはストリーム仕事の

カフカ

アパッチカフカのマネージドサービスとして

MSKMっていうのを出してるんだけど

AWSが独自で出してるストリーミング仕事のデータベースで

Kinesis Streamっていうのがあった

それも似たような感じで

全然カフカとできることは違うんだけど

ストリーム仕事のデータベースで

ストリーム仕事という意味では同じのがあって

当時入社して

最初に入った

Cookpadの広告事業系の

チームで

Kinesis Streamを使った

リアルタイムログ

分析プラットフォームみたいなのが

すでにあったんですよね

僕が実装したわけじゃなくて

その前の人たちが実装した

そこで初めて運用する側に回って

なんか面白い

そこが初めて僕にとって

ストリーム仕事のデータベースについて

触れる機会だったんですけど

それ面白いなっていうことで

広告時代にいる中に

1回か2回くらい別のアプリケーションを使う時に

今度は自分での似たような構成で

Kinesis Streamを使って

実装するみたいな経験もさせてもらって

すごい楽しかったんだけど

それがストリーム面白いなっていうことで

Kinesis Streamって

マネージドの割と使いやすいサービスなんだけど

Apacheカフカっていうのはもちろん

業界スタンダードとしてあるっていうのは

出てて

そのタイミングでCookpadの中で

グローバルチームに転席になった時に

グローバルでは既に

カフカを使ってたんですよね

Apacheカフカを

それが初めて運用側として

カフカに触れるきっかけだったかな

当時はApacheカフカを使うにも

いくつか種類があって

マネージドのサービスを使うか

自分でセルフホストするか

っていう形なんだけど

当時はConfluent Cloudっていう

まあ

スピーカー 1

Apacheカフカのコミッターたちがいる

Apacheカフカのマネージドサービスみたいなのがあって

それを使ってたから

18:01

スピーカー 2

それを使い始めたかな

日本にいた時は

Kinesisを使ってデータストリーミングをやっていて

海外支部に来てからカフカっていうことで

なんかそのやっぱり

同じような概念で

考えとか思考とか

知識とかスキルが生きるようなところはあったんですか?

そのカフカに移りやがって

スピーカー 1

そうだね

あの基本的には

そのなんだろう

もちろんそのコンフィグどうするかとか

メトリックどうするかっていうのは

取れるメトリックスも違うし

コンフィグの形も違うんだけど

そのストリーム思考ということで

ベースで考えなきゃいけないってことは

結構似てるんですよね

例えばこういった

そのさっき最初に言ったんだけど

連続的に無限にデータが流れてくるシステムを使うと

例えばこういったそのさっき最初に言ったんだけど連続的に無限にデータが流れてくるシステムを使うと

例えば考えなきゃいけないよくあるパターンとしては

遅れてきた遅延した

ラグがあるデータをどう扱うかっていうのが

一つアプリケーションのパターンとしてあるんですよね

例えばさっきのIoTデバイスの話で言うと

世界各国のIoTデバイスからセンサーデータが入ってくるんだけど

ネットワークの問題とか

Wi-Fiが遅い問題とある

IoTデバイスから

5分遅れてデータが入ってきますと

でもその5分遅れて入ってきたデータを処理した時点では

すでに他の99.9%のニアリアルタイムに入ってきたデータ処理し済みで

それをターゲット先のデータベース

イラストリックサーチでもMySQLでも書き込んじゃってましたみたいな

そんな時にラグをされたデータをどうやって処理しますか

出ますかそれとも書き込みますか

それとも別のラグ用のデータに書き込んどいてもいいのかと言うと

あとでアグリゲートしますかみたいなのとかは

Kafka使ってようがKinesis使ってようが

他のストリーミングデータベース使ってようが

関わってくるところなので

そういったストリーミング志向のアプリケーションパターンっていうのは

すごい行きましたね

スピーカー 2

前後にあるKafkaとかKinesisの前後にあるところは共通して

同じような処理をすることが多いから

スピーカー 1

そこをIQっていう感じですかね

それを対応するために

WaterMarketerとかIoTとかの

WaterMarketerという考え方があってとかあるんだけど

そこら辺のキーワードとかは一緒なので

スピーカー 2

自分の会社でのKafkaを導入したみたいな話があって

その中でやっぱりKafkaの他にもいろいろサービスがあると思うんです

今おっしゃったようなKinesisもあるし

GCPではCloud PubSubって結構近いのかなと思ったりとか

あとRabbitLQみたいなサービスがあったりとか

っていうのがいろいろあると思うんですけど

いろいろサービスがある中で

どれを選べばいいのかとか

どういう時にKafkaを選ぶのかみたいなのも

21:00

スピーカー 2

ちょっと気になっていて

例えばどういう規模だったらKafkaを選ぶのかとか

いろいろあると思うんですけど

なんかその辺で

こういう処理に向いてるよみたいな

スピーカー 1

もしあれば教えていただきたいなと思います

いい質問ですね

RabbitMQは使ってこないんで

ちょっとよく分かんないですけど

細かいところがね

例えばストリーミングとかって言うと

ストリーミング指向のデータベースによって

どこまで細かく設定できるかってのが

まず違うのと

そのスケーラビリティをどこまで担保してるかってのが

違うのと

多分よくある技術選定の話になるんだけど

その技術に慣れてる人がどれぐらいいるかって話になっていて

例えばじゃあクラウドパブサブと

Apache KafkaとRabbitMQ使うみたいになった時に

マネージドで

じゃあコンフレントクラウドのKafkaと

クラウドパブサブとRabbitMQ使うみたいになった時に

多分マネージドで使うんだったら

サポートしてるスケーラビリティの

アッパーリミットってのが多分違うと思うんですよね

まずそこら辺の

要件で消去法的に消していくのが

まず一つありますよね

例えばクラウドパブサブでは

ここまでしかサポートされてないんだけど

今回の要件ではめちゃくちゃスケーラビリティが必要で

クラウドパブサブだと思う

パブサブ結構多分サポートしてると思うんだけど

そういった

サポートが

ある感じで消去法的に消して

あとは

よくあるのは

ログのセマンティクス

っていう

考え方があって

例えば

At least once

とかデリバリーの

ログを渡す時の

セマンティクスっていうのがあるんですけど

それは

例えば

さっきの同じ例でいうと

IoT

センサーの

のデバイスがカフカにデータを渡すと思うんですけどネットワーク

の瞬断とかによってログがうまく届かないケースってたくさんある

と思うんですよねそんなときにデータをドロップされたデータ

をそのまま見過ごすのかどうかもしくは再送するのかどうかもしくは

必ずエグザクトリバンス 1回だけ送られることを保証するのかどうか

っていうこの3パターンがあってですねこれはビジネス要件によって

変わってきます例えば重複されたデータが入ってきてもいいけど

データはなるべく落とさないでねみたいな要件のものだったら

そのセンターのデータをドロップさないといけないというような

セマンティクスを選ばなきゃいけないですしあとはとりあえず

どんどんどんどんデータを送ってくれて 0.1パーセントぐらいドロップ

されても全然問題ないよみたいな欠けてることが許されるビジネス

24:01

スピーカー 1

要件だったらそういったセマンティクスを選べばいいしストリーミング

の中で例えばファイナンス系とかですね必ず1回は送られた

ということ例えばドロップされたら再送するし重複で送信すること

はないということちゃんと保証してくださいみたいなセマンティクス

が必要なときにはそれを使うそれが使うPubSubとかApache Kafkaでサポート

されてるかどうかっていうのが大事なポイントですね Kafkaの場合

はすごいコンフィギュラブル徹底の柔軟度が高いので基本的に

設定で大体サポートできるのでそういった問題でじゃあしょうがない

Kafka使うかってなるケースも多いかなと思います

スピーカー 2

確かに In-Uとかだと 2回送ってしまったら例えば二重計算になって

しまうみたいな例も考えられますか

もねそういうのを絶対に防ぎたいからこそよりしっかりしたほう

スピーカー 1

を選びたいみたいな流れはあるんですかね

二重決済はどこでされるかっていうのがあって別にKafkaというかストリーミング

がデュプリケートで遅れてきてくてもしょうがないからコンシューマー

側で実装すればいいっていうのが多分よくあるパターンなんだ

けど仮にストリームが本当にexact リバンスを保証してくれたらそれ

に勝ることはないので

スピーカー 2

そうですねありがたい

その分でもやっぱり再送とか 1回を保証するみたいなのは負荷

がかかってくるんですかね

スピーカー 1

もちろんかかってきますねやることをどこでコンピュテーション

処理をするかっていうのは違いに過ぎないのでどこに重荷を負

わせるかっていう話に過ぎないのであとは最後にはやっぱりKafka

を使ってる

知ってるデベロッパーがこっちとかイギリスとか欧米圏だと多い

気がするのでそういった技術親和性を考えて Kafka使ってるとことか

も多いかなまたPubSubとかKinesis Stream使うの

そんな難しくないんでベンダーログインとかそこまで考えそう

そうそうシンプルだから基本的にはパブリッシャーとサブスクライバー

もしくはコンシューマーデータをプッシュして

スピーカー 2

ある意味 Kafkaはラーニングカードが結構厳しいというかところ

があるから知ってる人がいないところでは導入しづらいかなっていう

のはありそうですかね

スピーカー 1

かもしれないね

スピーカー 2

やっぱり小さい規模とかスタートアップとかだと最初はそういうパブリック

マネージサービスを使っていくのがやりやすいみたいなところ

スピーカー 1

はあるかもしれないですね

それが多いと聞く感じもいきなりスタートアップがアパートサービス

とかアパッチカフカのセルフホストとかはちょっと

スピーカー 2

それだけで終わっちゃいました

スピーカー 1

何をしてるんだというか GCPのPubSub とかAWSのKinesis Streamとかすごい

27:02

スピーカー 1

よくできてるんでボタン一つで結構スケールしますし

スピーカー 2

そういうところからストリームの概念を理解していくっていう

のが時間がないときはいいかもしれないですね

スピーカー 1

そうですね

あとさっきアパートサービスのアパートサービスっていうのが結構

大きくなってくるんですよねそうですね

はい

アパートサービスのアパートサービスのコネクトの話したと思うん

ですけど例えば Elasticsearchとか別のデータベースの各ブックに

コネクト使えるよっていったんだけど似たような考え方はもちろん

GCPとかAWSでもサポートしてるんですよね

要するにイタゴラスイッチ的にいろんな特徴のあるデータベース

とかコンポーネント組み合わせていく例えばAWSだったらKinesis Stream

の先にラムダを挟んでから DynamoDBに入れてみたいなのがすごい難しくて

悪くないというか割とやりやすい場合によってはGUIだけで設定でき

たりとかするからそのイタゴラスイッチがAWSの中だけ組みやすく

なってるのでそこら辺がどこまで自分たちのビジネス要件に合う

かやりやすいかっていうのも一つコールポイントかな

スピーカー 2

Kafkaと並んでApache Zookeeperっていうのも結構名前も聞くんですけど

これはどういうふうに使われるんですか

スピーカー 1

おーいい質問ですね今日の中で一番好きな質問

なぜ好きかというとまずApache Zookeeper っていうのはまた別のバイナリー

ですとサービスですと確か4KB までだったかなデフォルトだと

Apache Kafkaの中でどう使われてるかっていうと Apache Kafkaを運用する

ためには

複数台のノードなんですよね例えば最低3台から4台 5台のノードが動いて

いてそれらがコンセンサスを取りながらスケールアップしたりデータベース

としてインストリビューティッドデータベースとして分散データベース

を動いてるんですけどその分散データベースを運用するためには

いろいろなメタデータが必要なんですねメタデータといってる

のはまず例えば誰がリーダーかっていう話になるんですけど

ちょっと話が飛び過ぎたら戻りますが例えばじゃあ Kafkaを運用

するために Kafkaのノードとしてはプロセスとしては3台必要なんですね

最低基本的にはこの3台別々のじゃあ例えば US East 1のリージョン

のここのアバイラビリティゾーンとここのアバイラビリティゾーン

とここのAZで3台動いててその 3台のうち 1台がリーダーっていう

ものを動かす &他の2台がホロワーという形で動いてます

Kafkaではこれどうなるかっていうとすべてのデータはまずリーダー

30:02

スピーカー 1

にいくんですよすべてのデータがねリーダーが処理するんだけど

そのリーダーが処理したデータを 2台のフォロワーにレプリケーション

複製コピーするんですねこれなぜかというと分散データベース

1台だと対障害性がないからですね

例えばこのリージョンのこのAZ

アバイラビリティゾーンで動かしていたとして

AZ障害ゾーン障害があって

リーダーが落ちました

リーダーが落ちたら

それに書き込んでたデータはなくなりますよね

リーダーが立ち上がるまでゾーンが戻るまで

それが許容できないので

2つ以上のフォロワーを作り

そのフォロワーにデータをリプリケーションして

もしゾーン障害とか

あとはリーダーのノードが

マシン障害で消えちゃったときには

可能な限り瞬時に別のフォロワーがリーダーに昇格して

今度こっちに書き込んでねということができるように

作られている必要があるんですよね

こういったディスリビューティッドデータベース

そのときに誰がリーダーなのって

どこに保存するのって話ですよね

うん

分かります?

誰がリーダーなのっていう

これはリーダーノードにはもちろん保存できないですよね

だってリーダーが死んだら

誰がリーダーなのっていうのが

誰も分からなくなってしまう

はい

なので

Apache Kafkaの3台のノードとは別の

ZooKeeperという

メタデータのデータベースを持っておいて

そこにKafkaを運用するのに必要不可欠な

例えば誰がリーダーですかとか

あとはこのリーダーとフォロワーがどこの

IPアドレスでどこのAZにいますかみたいな

最低限のちっちゃいメタデータを保存しておくための

別のZooKeeperというものがいた

いる

はい

でZooKeeperはZooKeeperで

ちゃんと対象外線を考慮された3台とか5台のノードなので

2つのディスリビューティッドデータベースが

組み合わさってApache Kafkaを動かしているということになりますね

このZooKeeperは他のデータベースとかでも

こういったメタデータストアとして使われることが多いですね

Kafka以外でも使えるんですね

使います

似たものとしては例えばKubernetesとかETCDとかね

みたいな感じですね

スピーカー 2

状態とかを関連しているわけですね

コントロールプレイにある

スピーカー 1

そうそう

スピーカー 2

コントロールプレイとはちょっと違いますね

リーダーっていうのはいるから

スピーカー 1

コントロールプレイ

リーダーっていうのがいるから

うん、コントロールペンのディフィニションの定義次第ですけど。

つまり、ZooKeeperが落ちるとKafkaは機能しなくなりますね。

スピーカー 2

そうなんですね。めちゃくちゃ重要な存在なんですね。

33:03

スピーカー 1

そうそう。だから、セルフホストのApache Kafkaをするときって、今までだったらApache ZooKeeperも運用しなきゃいけなかったので、超めんどくさい。

そういう人なら、それを込めてやってくれると。

うん、そう。なんだけど、これがなぜいい質問になったかっていうと、すごいタイムリーなんですけど、Apache Kafkaの中で、Kafkaを向上させるためのプロジェクトっていうことで、Kafka Improvement Project、KIP、KIPっていうのがあって、

これが、なんだろうね。

GitHubのIssue番号が、

GitHubのIssue番号なんですけど、要するに。これがその、コンフルエンス化のウィキに、例えば、KIPの〇〇〇番は、Apache Kafkaのこういう新しい新機能を実装しますみたいな形で、Kafka Improvement Proposalか、そういうものがあるんだけど、KIP、KIP500番っていう、割と有名なプロポーザルがありまして、語呂もいい500番。

これは、KIP500は、

スピーカー 2

Replace Zookeeper with a Self-Managed Metadata Quorumというところで、この500番、KIP500のプロポーザルが目立ちているところは、Kafkaを運用するために、今まで必要だったZookeeperをなくしましょうっていうプロポーザルなんですよ。

すごい、革新的な。

スピーカー 1

そう。だって、Kafkaを運用するために、なんでわざわざ別のZookeeperも必要なの?みたいな。

マシンリソースも食うし。

Zookeeperの運用も考えなきゃいけないし、みたいな。

ですね。

これが今、すごい粛々と動いていて、やってることとしては、RAFTっていうコンセンサスアルゴリズムを、Apache Kafkaの中に組み込むことで、そのリーダーエレクションとかにメタデータストアを必要としないっていう、割とよくあるパターン。例えば、Neo4jとかでもそうなんだけど。

そうなんですね。

うん。

すごい人がコンフルエントに入ってですね、ガリガリ詰めてて。Apache Kafkaの2.8から、ベータみたいな感じで使えるようになってますので。

まだ立ち位置としては、本番では使わない方がいいかもね、みたいな物言いだった気がしますが。

スピーカー 2

でも、かなり使えるレベルに上がってきている、仕上がってきているんじゃないかなっていう。

そうそうそう。

スピーカー 1

へぇー。

上場企業とか、フィンテック企業の、ヘアワンのプロダクションはまだ使わない方がいいかもしれないけど、ちょっとしたエクスペリメンタルとか、あとは、あまりビジネス要件がクリティカルじゃないってことがあったら、全然試してみて、Apache Kafkaコミュニティにフィードバックするくらいでいいんじゃないかな。

スピーカー 2

普段にまだ、年収サービスにはこういうのが反映されてるなと思うんですけどね、そしたら。

36:03

スピーカー 1

あー、MSK。AWS、MSKとか。

スピーカー 2

はい。

そういうクラウドとか。

スピーカー 1

ちょっと分かんないですね。でも、MSKを使うという意味に関しては、そこまで気にしなくていいはずなので。

そうですよね。自分でやらないと。

確かに。

スピーカー 2

メイトとしてはクラウド側、ベンダー側でコストが下がるっていうところになると思うんで、こちら側はそんなに。

スピーカー 1

そうそうそう。そうなんですよ。マシンリソースが減るし、運用コストも減るんで。これがもう、完璧に動いてくれたらもう。

すごい、最高の機能ですね。

スピーカー 2

インスタンスを、3台とか結構でかいですもんね。それなりに。

そう。

ちゃんと冗長性を保って運用していくっていうのは。

スピーカー 1

うん。

スピーカー 2

これだけだいぶ、コスト面では大きそうですね。

大きいですね。

スピーカー 1

うん。

そう。

こんな感じかな。

スピーカー 2

アリゴリズムとかっていうのは結構、ブロックチェーンとかもやってるようなプログラム。そういうところとも繋がってきそうで、面白いですね。

スピーカー 1

分散DBだったら、基本。

スピーカー 2

はい。

スピーカー 1

基本的には、コンセンサスアリゴリズムがないと。

はい。

なので、保証できないので。

スピーカー 2

確かにそうです。面白い。学学会ですね。

うん。

スピーカー 1

こんな感じかな。

はい。

スピーカー 2

じゃあ、そうですね。カフカについての深掘りは、別の回でもう少しやりたいなと思ったんですけど。

スピーカー 1

うんうん。

スピーカー 2

はい。

今回、最後にそうですね。なんか、キャッチアップとかカフカをしていくのに、おすすめの方法とかって、もしあれば伺いたいなと思うんですけど。ストリーミングの全体を見ててもいいんですけども。

スピーカー 1

うん。

スピーカー 2

こういう方法でやっていくと、理解しやすいよとか。

スピーカー 1

あー。

スピーカー 2

もしあれば、伺いたい。

スピーカー 1

はい。

分かりました。

まず、キャッチアップでどこまでを目指して。

はい。

キャッチアップを目指したいか次第で。

はい。

もう、アパチカフカって、良くも悪くも、枯れてる側の技術だと僕は認識していて。

はい。

ストリーミング商品は。もちろんどんどん進化はしてるんだけどね。結構その、ベストプラクティスみたいなのも出てきたし、メトリクスとか、運用方法みたいなのも、割とどんどんどんどん進化して、枯れてきている。いい意味で枯れてきているので。

はい。

で、その、マネージドサービスもいいのが出てきて。

はい。

例えばさっき言った、アパチカフカのコミッターとか所属しているコンフルエントクラウドとか、あとは対抗馬のAmazonのMSKとか。

はい。

で、自分たちでKubernetesとして動かそうとすれば、例えばStreamGみたいなオペレーターを使うと、まあ、めんどくさいけど、まあ、自分たち、今まで売れ簡単にできたりとか、進んできているので。

39:01

スピーカー 1

はい。

その、カフカの内部構造を知りたい。もしくはカフカの運用側に回りたい。

うん。

まあ、回らなくてはいけないっていう、まあ、人たちなのか、単純にカフカを、その、ディベロッパーとして書き込み、読み込みがしたいだけなのか。

うん。

そこが、まず大きな分かれ道ですね。

確かに。

で、その、全社のカフカを運用する側に回ると、多分、全世界のこう、ディベロッパーの割合で、多分、そんなに1%もいないぐらいだと思うんですよね、多分。

スピーカー 2

うん。

スピーカー 1

なんか、ビッグテックとか、それこそAmazonのMSKとか、コンフルの裏側で、カフカを運用しなきゃいけない。

はい。

ような人たち、もしくは、既にカフカを導入している、中規模以上のサイズの企業に採用が決まりました、ぐらいの人たちなので。

はい。

基本的には、まあ、なんだ、カフカをユーザーとして使いしたいディベロッパーがほとんどだと思うので、そうなるとキャッチアップはそんな難しくないかなと思うんですよね。

クラウドサービスで立ち上げることができるし、まあ、セルフホストでもそんなに難しくはないと。

運用は難しいんだけど、使う側、例えば、カフカにクライアント使ってプロデューサーとしてロゴを書き込んだり、コンシューマーを読み込んだりみたいなところはそんな難しくない。

クライアントもいいクオリティの方が出てるので、Goとか、Javaはもちろんあります。

スピーカー 2

結構、いろいろ例が挙がってて、それを真似せれば。

はい。

簡単にできるみたいなところはありそうですね。

スピーカー 1

うん、そんなに難しくない。ディベロッパーとして使うだけだったらね。

うん。

仮に運用に回らなくちゃいけないっていうシチュエーションが出た、もしくは、何らかの理由でセルフホストしなきゃいけないみたいになったら、なんだろう、まあ、なんか近道とかあるのかは知らないけど。

はい。

うーん。

まあ、Confluent Cloudが定期的にブログを出してるので、それを使うことができる。

はい。

うん。

それはRSSで読んでるとか、あとは、やっぱり学習リソースがすごい充実してるんだよね。Confluent Cloudがマーケティング目的でいろんなビデオ出してたりとか、Confluent Cloudベースの資格もあるんで、アパティカフカの運用にフォーカスした。

フォーカスとか。

うん。

3万ぐらいで受けられるやつで、僕は持ってないんだけど、うん。

なんか勉強はした。うん。

うん。

だからそういうのを、試験を受けて、最近のAPIとか。

うん。

チェックしてみるとか。

それはいいですね。

スピーカー 2

うん。

スピーカー 1

とか、いろいろ出ると思うので。

うん。

そう。

また、押さえなきゃいけない概念っていうのがある程度あって、これオライリーからいい本が、アパティカフカみたいな、もうまさにみたいなタイトルで、今出てるので、それを読むとかかな。

スピーカー 2

ちょっとじゃあ、それも小ノートに貼ってみましょう。

42:01

スピーカー 1

はい。

わかりました。

スピーカー 2

ありがとうございます。

スピーカー 1

ありがとうございます。

スピーカー 2

はい。

話ですね。

はい。

すごいいろいろ聞けて勉強になりました。

ZOOkeeperの話とかもすごく面白かったです。

スピーカー 1

うん。

スピーカー 2

ちょっと深掘りしたいところ結構あったので、また次の回でお話しさせていただければと思います。

スピーカー 1

はい。

なんかコメントとか、もし気になることとかあれば、ぜひよろしくお願いします。

お願いします。

スピーカー 2

では今日はこんなところで。ありがとうございました。

スピーカー 1

はい。お疲れ様。

スター

エピソードをシェアする

メッセージを送信

ken

Yosuke Asai

スター

コメント

こちらもおすすめ