Google BigQueryの進化
DEN_MC1
こんにちは。今回の情報探索へようこそ。 今日はですね、primeNumber社のデータエンジニアリングニュース2025年5月版から、
データエンジニアリング界隈のちょっと気になる動きをピックアップしていこうと思います。 いや、各プラットフォーム結構活発にアップデートされてますけど、特に注目したい動きがいくつかありました。
まずはGoogleBigQueryから見ていきましょうか。非構造化データの扱い、これが変わるっていう話がありましたよね。
DEN_MC2
ええ、これはですね、あの結構大きな変化だと思います。BigQueryの中でオブジェクトレフっていう、なんていうか参照ポインターみたいなものを使ってですね、
クラウドストレージとかに置いてある画像とか音声データ、そういう非構造化データを直接テーブルデータと同じように扱えるようになるんです。
これまだプレビューですけど。で、さらにAI.GenerateTextみたいなAI関数と組み合わせることで、BigQuery上でそのままこれらのデータを分析したりとか、テキストを生成したりとか、そういう処理が可能になるんですよ。
DEN_MC1
それはつまり、これまでだと別の場所で処理して、またBigQueryに戻してみたいな手間があったものがBigQuery内である程度完結できる可能性があるということですか?
DEN_MC2
まさにワークフローがシンプルになるのはもちろんなんですけど、もっと大きな意味で言うと、データウェアハウスでの定型分析と別の場所でやってたAIとかMLモデルの開発ですよね。そこの連携がぐっとシームレスになるイメージですね。
DEN_MC1
なるほどなるほど。分析基盤上で非構造化データも一緒に扱えると。
DEN_MC2
そうなると特徴量エンジニアリングからモデル評価まで、もっと早いサイクルでインサイトを得たりモデルを改善したりっていうのができるようになるかもしれないですね。
これはAI活用を本格的にやりたいって考えている多くの組織にとってはかなり魅力的なアップデートだと思いますよ。
DEN_MC1
確かにそれは大きいですね。BigQuery関連であともう一つ、実行グラフの改善。これも触れられてましたよね。クエリーテキストセクションが追加されたとか。
DEN_MC2
はい、これも地味に見えるかもしれないですけど非常に役立つ機能ですね。これもプレビューですが、複雑なSQLを書いた時に実行計画のどのステップがSQLのどの部分に対応しているのか、それが視覚的にパッと分けるようになるんです。
DEN_MC1
ああ、それはいいですね。
DEN_MC2
なのでボトルネックの特定とかパフォーマンスチューニングが格段にやりやすくなるはずです。特にすごく長いクエリーとか、他の人が書いたクエリーをデバッグするときなんかは本当に重宝するんじゃないでしょうか。
DEN_MC1
いやーわかります。実行計画だけ睨んでても、元のSQLのどこが悪いのかなかなか特定できない時ありますもんね。これは嬉しい改善点ですね。
あと継続的クエリとかクロスリージョン転送の一般提供開始っていうのも、リアルタイム性とか柔軟性を高める動きですよね。
ええ、そうですね。データの鮮度とか、どこにデータを置くかみたいな選択肢が増える重要な基盤強化と言えると思います。
DEN_MC1
なるほど。BigQueryがデータ処理の入り口とかAI連携の柔軟性を高めている一方で、そのデータ変換処理そのものをもっと効率よく早くするっていうのもデータエンジニアリングの大きなテーマですよね。
そこで注目したいのがDBTです。新しいエンジンDBT Fusionというのが登場したそうですね。
DBT Fusionの登場
DEN_MC2
はい、DBT Fusion。これはDBTコアの新しい解析実行エンジンでして、バックエンドがラストで書き直されたんですね。
目玉はやっぱりパフォーマンスで、プロジェクトの解析時間がなんと最大で30倍速くなる可能性があると。
DEN_MC1
30倍。それはすごいですね。でも最大ってことは常にその恩恵があるわけでは、例えばどういう仕組みでそんなに早くなるんですか?
DEN_MC2
もちろん最大なので、プロジェクトの規模とか複雑さにはよるんですけどね。
ただラストで書き直されたことでメモリー管理の効率化とか並列処理能力、これが大きく向上しているのが主な要因みたいです。
特に依存関係が複雑に絡み合っているような大規模なプロジェクトほど、解析時間短縮の恩恵は大きくなるでしょうね。
あと単に速いだけじゃなくて、SQLの意味構造をより深く理解するようになったらしいので、カラムレベルでの依存関係の追跡とかそういう精度も上がっているみたいです。
DEN_MC1
なるほど。言語の特性を生かして根本から作り直したみたいな感じですかね。
もう一つ、ステイト・アウェア・オーケストレーションっていう機能も紹介されてましたね。これは具体的にどういうメリットが?
DEN_MC2
これはですね、DBTの実行をより賢く行う仕組みみたいな感じです。
従来だと変更があったモデルとそれに依存する下流のモデルを再構築してたんですけど、Fusionではそれに加えて元になっているソースデータ、例えば上流のテーブルですね。
その変更もちゃんと検知して、本当に再計算が必要なモデルだけをビルド対象にするんです。
DEN_MC1
賢いですね。
DEN_MC2
ええ。なので、不要なビルドが減るから、CICDの実行時間とか、特にビッグクエリみたいな重量課金のデータウェアハウスだと、クエリコストを大幅に削減できる可能性があるわけです。
DEN_MC1
それは素晴らしい。パイプライン全体の効率化と、あとコスト削減に直結しそうですね。
VSコードの拡張機能で、ローカル開発でも使えるようになるっていうのも、開発者としては嬉しいポイントですよね。
TROCCOの新機能
DEN_MC2
ええ、そうですね。ローカルでの開発体験と、CICDの実行の挙動が一致しやすくなるっていうメリットもありますね。
DEN_MC1
さて、ここまでデータを取り込んで変換するっていう流れを見てきましたけど、その取り込みの部分、つまりETL、LLTツールも進化してますよね。
国産のETLツール、TROCCOのアップデートについて見てみましょうか。CDC機能が写真されたとか。
DEN_MC2
はい、TROCCOのCDC、つまり変更データキャプチャー機能が新しくなりましたね。
例えば、MySQLの変更履歴、ビンログですね。
これを捉えて、ほぼリアルタイムでAmazon S3上のApache Iceberg形式のテーブルに差分を反映する、みたいなことができるようになってます。
DEN_MC1
CDC、データベースの変更をすぐに捉えて、データレイクとかDWHに反映できる技術ですよね。
これが強化されると、例えばどんなユースケースで役立ちそうですか?
DEN_MC2
そうですね。例えば、業務で使っているデータベースの変更を数分程度の遅延で分析用のダッシュボードに反映させたりとか、あとはほぼリアルタイムでのレポーティングとか、そういうのが可能になりますね。
DEN_MC1
ああ、なるほど。
DEN_MC2
ええ。10代だとバッチ処理で夜間に更新していたようなものが、日中も常に最新に近い状態で見られるようになる、みたいな価値が生まれるわけです。
ここで、S3 Icebergみたいなオープンテーブルフォーマットが使われているのも結構ポイントでして。
DEN_MC1
と言いますと?
DEN_MC2
あの、Icebergってスキーマ変更への追従性とか、トランザクション管理に優れてるんで、CDCみたいにどんどん差分が入ってくるような仕組みと相性が良いんですよ。
DEN_MC1
なるほど。データの鮮度がビジネスの意思決定速度に直結するような場面だと、これは非常に重要ですね。
そしてもう一つ、TROCCOで大きな動きに見えるのが、Conact Builder ベータ版の提供開始。これはかなりインパクトがありそうですが。
DEN_MC2
そうですね。これは大きいと思います。ユーザー自身がTROCCOのコネクタを開発できる機能なんです。
つまり、TROCCOが標準では対応していないSaaSとか、あるいは社内の独自データベース、APIを持つようなシステムとか、これまでちょっと連携を諦めてたようなデータソースとも、自分たちでコネクタを実装すれば連携できるようになるということです。
DEN_MC1
おお、それは接続先の自由度が文字通り格段に上がりますね。ただ一方で、自作するとなると、そのコネクタの品質管理とか、メンテナンスはユーザー側の責任になるということですよね。
DEN_MC2
おっしゃる通りです。開発と維持の責任はもちろんユーザー側にあります。でもそれを差し引いても、やっぱりこれまで接続できなかったデータソースへの道が開けるというインパクトは大きいと思いますね。
特に、ニッチな業界特化型のSaaSとか、あとはレガシーシステムとか、そういうのを使っている場合には、すごく大きな助けになる可能性があります。
DEN_MC1
確かに。
DEN_MC2
あと、セルフホーステッドランナーの公式版リリースというのもあって、オンプレミス環境とか、より多様な環境でTROCCOを使えるようになったという点も柔軟性の向上に寄与していますね。
DEN_MC1
いやー、今回も各プラットフォームで本当に興味深い進化が見られましたね。BigQueryでの非構造化データとAIの統合、DBTでの変換処理の抜本的な高速化、
そしてTROCCOでの連携対象の拡大とリアルタイム性の向上、なんか全体としてデータ活用のハードルを下げて、より高度で迅速な分析とか効率化を推し進める動きがますます加速しているように感じますね。
もしあなたが特定のデータソース連携とか処理速度に課題を感じているなら、これらのアップデートは解決の糸口になるかもしれません。
DEN_MC2
そうですね。特にやはりAI活用を前提とした機能強化、それからパフォーマンス改善、そしてアイスバーグみたいなオープンフォーマットへの対応強化、このあたりは各ツールに共通するテーマと言えそうですよね。
データがどこにどんな形式であっても、より早く、より柔軟に、そしてよりインテリジェントに扱えるようにしていこうという方向性がはっきりと見えてきた感じがします。
DEN_MC1
さて、今日ご紹介したようなツールや機能の進化は、あなたのデータ戦略や日々の業務にこれからどのような変化をもたらす可能性がありますか?
今回の情報が次の一歩、次のアクションを考える上での何かヒントになれば幸いです。