-
-
DEN_MC1
さて、次はクラウドプラットフォームの巨人、AWSに目を向けてみましょうか。
こちらはパフォーマンスと運用効率の向上がテーマという感じでしょうか?
DEN_MC2
そうですね。まず注目したいのが、Amazon OpenSearch Serviceでプレビュー提供が始まったStar-Tree Indexです。
これは大量データの集計クエリーを高速化するための新しいインデックス技術ですね。
DEN_MC1
Star-Tree Index、星型の木ですか?どういう仕組みで速くなるんですか?
DEN_MC2
ちょっと技術的な話になりますけど、これは特定のディメンション、分析軸に基づいてあらかじめデータをキューブみたいな形で事前集計しておくインデックスなんですね。
事前集計?
ええ。例えば時系列のログデータに対して、どの国のどのデバイスからどのページへのアクセスが何件あったかみたいな集計を頻繁に行うとしますよね。
Star-Tree Indexインデックスは、これらの軸で集計された結果をインデックスの中に保持しておくことで、クエリー実行時に膨大な生データをスキャンする代わりに、この事前集計されたインデックスを読むだけで済むようにするというアプローチです。
DEN_MC1
なるほど。料理でいう下ごしらえをしておくようなイメージですかね。
DEN_MC2
まさにそんな感じです。
DEN_MC1
どれくらい効果があるものなんですか?
DEN_MC2
ユースケースによりますけど、AWSの発表では数十億レコード規模のデータに対する典型的な集計クエリーが数分かかってたものが、サブ秒、つまり1秒未満で応答可能になったなんて例も示されてますね。
DEN_MC1
サブ秒応答はすごいですね。
DEN_MC2
ええ。なのでリアルタイム性が求められるダッシュボードとか、インタラクティブな分析アプリケーションなんかで特に威力を発揮するでしょう。
大量のログ分析とかIoTデータ分析なんかでの活用が期待されますね。
DEN_MC1
なるほど。運用面での改善としては、ECSのManaged Instancesも発表されましたね。これはどういったものでしょう?
DEN_MC2
ECSはAmazon Elastic Container Serviceの略で、コンテナ化されたアプリケーションを実行管理するためのサービスですね。
これまではコンテナを動かす基盤としてサーバーレスのFargateを選ぶか、自分でEC2インスタンスを管理するか、そういう選択肢だったんですけど、今回発表されたECS Managed Instancesはその中間を狙ったようなサービスという感じです。
DEN_MC1
中間というと?
DEN_MC2
ユーザーは必要なCPUとかメモリ量を指定するだけで、その要件にあったEC2インスタンスのプロビジョニング、OSのパッチ適用、スケーリング、ヘルスチェックなんかをAWSが自動でやってくれるんです。
DEN_MC1
おー、それは楽そう!
DEN_MC2
そうなんです。つまりFargateみたいな運用負荷の低さとEC2の柔軟性、例えばGPUインスタンスを使いたい場合とか、そういうのを両立させようという試みですね。
インフラ管理の詳細をあまり意識することなく、特定のハードウェア要件を持つコンテナワークロードを実行したい場合に有力な選択肢になるかなと、データ処理パイプラインのコンテナ運用とかがより楽になる可能性がありますね。
DEN_MC1
インフラ管理の手間が減るのは本当ありがたいですね。選択肢が増えるのは良いことです。
では次に、BIツールのLooker Studio、旧Googleデータスタジオですね。こちらの動きを見てみましょう。
DEN_MC2
Looker Studioでは、Google広告コネクタで利用できる指標が増えた点が、特にビジネスユーザーにとっては嬉しいアップデートかもしれないですね。
ROS、広告費用対効果だけじゃなくて、総利益とか総利益率といった、より直接的な収益性に関する指標をレポートに含められるようになったんです。
DEN_MC1
おお、広告の成果をクリック数とかコンバージョン数だけじゃなくて、実際の利益ベースで評価できるってことですね。
DEN_MC2
その通りです。どの広告キャンペーンが売上だけじゃなくて、ちゃんと利益にも貢献してるのかっていう視点での分析がすごくやりやすくなります。
これにより広告良さの最適化とか、よりビジネスの根幹に関わる意思決定をデータに基づいて行いやすくなるでしょうね。
DEN_MC1
それは重要ですね。他に細かい改善点などはありましたか?
DEN_MC2
テーブルチャートで最大10項目まで複数キーでのソートが可能になったりとか。
DEN_MC1
地味に嬉しいやつですね。
DEN_MC2
そうそう。あとパートナーコネクターが多数追加されたりとか、そういう地味な使い勝手の向上が見られますね。
特にパートナーコネクターの充実は、Looker Studioをハブとしていろんな業務ツールとかデータソースと連携しやすくなるってことを意味します。
例えばCRMツールのHubSpotとか、ECプラットフォームのAmazonセラーセントラル、TikTokショップみたいなデータも直接Looker Studioで可視化分析できるようになります。
へー。
あなたが普段使っているツールとの連携もよりスムーズになるかもしれませんね。
DEN_MC1
いろんなツールとつながることで、分析の幅が広がりますね。
DEN_MC1
ではここからは、primeNumber社自身のプロダクト、データ基盤サースのTROCCOの進化について見ていきましょう。環境管理機能がリリースされたそうですね。
DEN_MC2
はい、これはデータパイプラインの開発運用において非常に重要な機能ですね。
多くの開発現場では、開発環境、検証環境、本番環境みたいに、複数の環境を使い分けて安全に開発を進めますよね。
今回の機能で、TROCCO上でこれらの環境を明確に分離して、例えば開発環境で作ったデータ転送設定を検証環境でテストしてから本番環境へ反映させる、みたいな段階的なデプロイプロセスを組むことができるようになります。
DEN_MC1
これによってどういったリスクを避けられるのでしょうか。
DEN_MC2
よくあるのが、開発中の設定変更をうっかり本番環境に適用しちゃって、データ連携が止まっちゃったみたいなヒューマンエラーですね。
DEN_MC1
ああ、怖いですね、それは。
DEN_MC2
ですよね。環境管理機能を使えば、そういう事故のリスクを大幅に低減して、データパイプラインの安定稼働を支援します。
特に複数の開発者が関わるようなケースでは、もう必須ともいえる機能かなと、より堅牢なデータ基盤を構築運用する上で役立ちますね。
DEN_MC1
安全な運用のためには不可欠ですね。TROCCOでは新しいコネクターの追加や機能改善もあったようですね。
DEN_MC2
転送元として新たにDb2 for LUW、あと請求書サービスのBill One、プロジェクト管理ツールのClickUp、それからクラウド電話サービスのBIZTELといったコネクターが追加されて、対応できるデータソースの幅がさらに広がりましたね。
特にSaaS系のコネクターが増えているのは、昨今のトレンドを反映している感じがします。
DEN_MC1
それからCDCでのスキーマ変更自動追従機能というのも気になります。CDCって何でしたっけ?
DEN_MC2
エリートの履歴を捉えてほぼリアルタイムに他のシステムに連携する技術ですね。データウェアハウスへのデータ連携とかでよく使われます。
今回の機能強化は、このCDCを使っているときに、連携元のデータベースでテーブル構造、スキーマが変更された場合、例えば新しいカラムが追加されたり、データ型が変わったりした場合に、それを自動で検知して、TROCCO側の設定とか転送先のテーブルにも反映してくれる、あるいは少なくとも変更があったことを通知してくれる、そういう機能です。
DEN_MC1
それは便利ですね。手動で対応するのは結構大変そうですもんね。
DEN_MC2
まさに。スキーマ変更って気づきにくかったりして、対応が漏れるとデータ連携エラーの原因になったりしますからね。この自動追従機能によって運用保守の手間とコストを削減して、パイプラインの安定性を高めることができる。見落としのリスクも減らせるというわけです。
DEN_MC1
運用負荷の軽減につながるわけですね。あと、データマート先としてDatabricksが追加されたのも、さっきのDatabricksの話とつながりますね。
DEN_MC2
そうですね。これまでも主要なDWHには対応していましたけど、Databricksが加わったことで、TROCCOを使っていろんなソースから収集・加工したデータをシームレスにDatabricksのレイクハウス環境にロードして、そこで高度な分析とかAIMLモデルの構築に活用する、みたいな一連の流れがよりスムーズに行えるようになります。
ユーザーさんのプラットフォーム選択の自由度がさらに高まったと言えますね。
DEN_MC1
はい、ありがとうございます。最後に、同じくprimeNumber社のデータカタログ製品、COMETAについて、こちらはAmazon Redshiftとの連携がサポートされたのですね。
DEN_MC2
はい。COMETAは、組織内に散在するデータ資産、テーブルとか絡むダッシュボードなんかに関するメタデータを収集・整理して、検索可能にすることでデータを探す手間を減らしたり、データの意味とか品質、利用状況を理解しやすくするデータカタログツールですね。
これまでSnowflakeとBigQueryに対応していましたが、今回新たにAmazon Redshiftにも対応したことで、主要なクラウドDWHを網羅する形になりました。
もしあなたがRedshiftをメインで使っているのであれば、COMETAを導入することでデータ活用の効率を上げられるかもしれません。