《Data Engineering News》dbt Fusionエンジンがパブリックベータでリリース（2025年5月まとめ）

Google BigQueryの進化

DEN_MC1

こんにちは。今回の情報探索へようこそ。今日はですね、primeNumber社のデータエンジニアリングニュース2025年5月版から、

データエンジニアリング界隈のちょっと気になる動きをピックアップしていこうと思います。いや、各プラットフォーム結構活発にアップデートされてますけど、特に注目したい動きがいくつかありました。

まずはGoogleBigQueryから見ていきましょうか。非構造化データの扱い、これが変わるっていう話がありましたよね。

DEN_MC2

ええ、これはですね、あの結構大きな変化だと思います。BigQueryの中でオブジェクトレフっていう、なんていうか参照ポインターみたいなものを使ってですね、

クラウドストレージとかに置いてある画像とか音声データ、そういう非構造化データを直接テーブルデータと同じように扱えるようになるんです。

これまだプレビューですけど。で、さらにAI.GenerateTextみたいなAI関数と組み合わせることで、BigQuery上でそのままこれらのデータを分析したりとか、テキストを生成したりとか、そういう処理が可能になるんですよ。

DEN_MC1

それはつまり、これまでだと別の場所で処理して、またBigQueryに戻してみたいな手間があったものがBigQuery内である程度完結できる可能性があるということですか?

DEN_MC2

まさにワークフローがシンプルになるのはもちろんなんですけど、もっと大きな意味で言うと、データウェアハウスでの定型分析と別の場所でやってたAIとかMLモデルの開発ですよね。そこの連携がぐっとシームレスになるイメージですね。

DEN_MC1

なるほどなるほど。分析基盤上で非構造化データも一緒に扱えると。

DEN_MC2

そうなると特徴量エンジニアリングからモデル評価まで、もっと早いサイクルでインサイトを得たりモデルを改善したりっていうのができるようになるかもしれないですね。

これはAI活用を本格的にやりたいって考えている多くの組織にとってはかなり魅力的なアップデートだと思いますよ。

DEN_MC1

確かにそれは大きいですね。BigQuery関連であともう一つ、実行グラフの改善。これも触れられてましたよね。クエリーテキストセクションが追加されたとか。

DEN_MC2

はい、これも地味に見えるかもしれないですけど非常に役立つ機能ですね。これもプレビューですが、複雑なSQLを書いた時に実行計画のどのステップがSQLのどの部分に対応しているのか、それが視覚的にパッと分けるようになるんです。

DEN_MC1

ああ、それはいいですね。

DEN_MC2

なのでボトルネックの特定とかパフォーマンスチューニングが格段にやりやすくなるはずです。特にすごく長いクエリーとか、他の人が書いたクエリーをデバッグするときなんかは本当に重宝するんじゃないでしょうか。

DEN_MC1

いやーわかります。実行計画だけ睨んでても、元のSQLのどこが悪いのかなかなか特定できない時ありますもんね。これは嬉しい改善点ですね。

あと継続的クエリとかクロスリージョン転送の一般提供開始っていうのも、リアルタイム性とか柔軟性を高める動きですよね。

ええ、そうですね。データの鮮度とか、どこにデータを置くかみたいな選択肢が増える重要な基盤強化と言えると思います。

DEN_MC1

なるほど。BigQueryがデータ処理の入り口とかAI連携の柔軟性を高めている一方で、そのデータ変換処理そのものをもっと効率よく早くするっていうのもデータエンジニアリングの大きなテーマですよね。

そこで注目したいのがDBTです。新しいエンジンDBT Fusionというのが登場したそうですね。

DBT Fusionの登場

DEN_MC2

はい、DBT Fusion。これはDBTコアの新しい解析実行エンジンでして、バックエンドがラストで書き直されたんですね。

目玉はやっぱりパフォーマンスで、プロジェクトの解析時間がなんと最大で30倍速くなる可能性があると。

DEN_MC1

30倍。それはすごいですね。でも最大ってことは常にその恩恵があるわけでは、例えばどういう仕組みでそんなに早くなるんですか?

DEN_MC2

もちろん最大なので、プロジェクトの規模とか複雑さにはよるんですけどね。

ただラストで書き直されたことでメモリー管理の効率化とか並列処理能力、これが大きく向上しているのが主な要因みたいです。

特に依存関係が複雑に絡み合っているような大規模なプロジェクトほど、解析時間短縮の恩恵は大きくなるでしょうね。

あと単に速いだけじゃなくて、SQLの意味構造をより深く理解するようになったらしいので、カラムレベルでの依存関係の追跡とかそういう精度も上がっているみたいです。

DEN_MC1

なるほど。言語の特性を生かして根本から作り直したみたいな感じですかね。

もう一つ、ステイト・アウェア・オーケストレーションっていう機能も紹介されてましたね。これは具体的にどういうメリットが?

DEN_MC2

これはですね、DBTの実行をより賢く行う仕組みみたいな感じです。

従来だと変更があったモデルとそれに依存する下流のモデルを再構築してたんですけど、Fusionではそれに加えて元になっているソースデータ、例えば上流のテーブルですね。

その変更もちゃんと検知して、本当に再計算が必要なモデルだけをビルド対象にするんです。

DEN_MC1

賢いですね。

DEN_MC2

ええ。なので、不要なビルドが減るから、CICDの実行時間とか、特にビッグクエリみたいな重量課金のデータウェアハウスだと、クエリコストを大幅に削減できる可能性があるわけです。

DEN_MC1

それは素晴らしい。パイプライン全体の効率化と、あとコスト削減に直結しそうですね。

VSコードの拡張機能で、ローカル開発でも使えるようになるっていうのも、開発者としては嬉しいポイントですよね。

TROCCOの新機能

DEN_MC2

ええ、そうですね。ローカルでの開発体験と、CICDの実行の挙動が一致しやすくなるっていうメリットもありますね。

DEN_MC1

さて、ここまでデータを取り込んで変換するっていう流れを見てきましたけど、その取り込みの部分、つまりETL、LLTツールも進化してますよね。

国産のETLツール、TROCCOのアップデートについて見てみましょうか。CDC機能が写真されたとか。

DEN_MC2

はい、TROCCOのCDC、つまり変更データキャプチャー機能が新しくなりましたね。

例えば、MySQLの変更履歴、ビンログですね。

これを捉えて、ほぼリアルタイムでAmazon S3上のApache Iceberg形式のテーブルに差分を反映する、みたいなことができるようになってます。

DEN_MC1

CDC、データベースの変更をすぐに捉えて、データレイクとかDWHに反映できる技術ですよね。

これが強化されると、例えばどんなユースケースで役立ちそうですか?

DEN_MC2

そうですね。例えば、業務で使っているデータベースの変更を数分程度の遅延で分析用のダッシュボードに反映させたりとか、あとはほぼリアルタイムでのレポーティングとか、そういうのが可能になりますね。

DEN_MC1

ああ、なるほど。

DEN_MC2

ええ。10代だとバッチ処理で夜間に更新していたようなものが、日中も常に最新に近い状態で見られるようになる、みたいな価値が生まれるわけです。

ここで、S3 Icebergみたいなオープンテーブルフォーマットが使われているのも結構ポイントでして。

DEN_MC1

と言いますと?

DEN_MC2

あの、Icebergってスキーマ変更への追従性とか、トランザクション管理に優れてるんで、CDCみたいにどんどん差分が入ってくるような仕組みと相性が良いんですよ。

DEN_MC1

なるほど。データの鮮度がビジネスの意思決定速度に直結するような場面だと、これは非常に重要ですね。

そしてもう一つ、TROCCOで大きな動きに見えるのが、Conact Builder ベータ版の提供開始。これはかなりインパクトがありそうですが。

DEN_MC2

そうですね。これは大きいと思います。ユーザー自身がTROCCOのコネクタを開発できる機能なんです。

つまり、TROCCOが標準では対応していないSaaSとか、あるいは社内の独自データベース、APIを持つようなシステムとか、これまでちょっと連携を諦めてたようなデータソースとも、自分たちでコネクタを実装すれば連携できるようになるということです。

DEN_MC1

おお、それは接続先の自由度が文字通り格段に上がりますね。ただ一方で、自作するとなると、そのコネクタの品質管理とか、メンテナンスはユーザー側の責任になるということですよね。

DEN_MC2

おっしゃる通りです。開発と維持の責任はもちろんユーザー側にあります。でもそれを差し引いても、やっぱりこれまで接続できなかったデータソースへの道が開けるというインパクトは大きいと思いますね。

特に、ニッチな業界特化型のSaaSとか、あとはレガシーシステムとか、そういうのを使っている場合には、すごく大きな助けになる可能性があります。

DEN_MC1

確かに。

DEN_MC2

あと、セルフホーステッドランナーの公式版リリースというのもあって、オンプレミス環境とか、より多様な環境でTROCCOを使えるようになったという点も柔軟性の向上に寄与していますね。

DEN_MC1

いやー、今回も各プラットフォームで本当に興味深い進化が見られましたね。BigQueryでの非構造化データとAIの統合、DBTでの変換処理の抜本的な高速化、

そしてTROCCOでの連携対象の拡大とリアルタイム性の向上、なんか全体としてデータ活用のハードルを下げて、より高度で迅速な分析とか効率化を推し進める動きがますます加速しているように感じますね。

もしあなたが特定のデータソース連携とか処理速度に課題を感じているなら、これらのアップデートは解決の糸口になるかもしれません。

DEN_MC2

そうですね。特にやはりAI活用を前提とした機能強化、それからパフォーマンス改善、そしてアイスバーグみたいなオープンフォーマットへの対応強化、このあたりは各ツールに共通するテーマと言えそうですよね。

データがどこにどんな形式であっても、より早く、より柔軟に、そしてよりインテリジェントに扱えるようにしていこうという方向性がはっきりと見えてきた感じがします。

DEN_MC1

さて、今日ご紹介したようなツールや機能の進化は、あなたのデータ戦略や日々の業務にこれからどのような変化をもたらす可能性がありますか?

今回の情報が次の一歩、次のアクションを考える上での何かヒントになれば幸いです。

Duration:	09:55
File Size:	4763757 bytes
Codec:	mp3
Channels:	1 (mono)
Sample Rate:	48000 Hz
Bit Rate:	64000 bps
Integrated Loudness:	-15.47 LUFS
True Peak:	-1.00 dB
Loudness Range:	5.30 LU
Integrated Loudness (original):	-17.58 LUFS
True Peak (original):	-0.12 dB
Loudness Range (original):	6.90 LU

音声ファイル情報

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

DEN_MC1

DEN_MC2

サマリー

目次

スターの数

コメント

こちらもおすすめ