2025-07-03 06:51

《Data Engineering News》DatabricksでマネージドIcebergテーブルがプレビュー公開(2025年6月まとめ)

spotify apple_podcasts

primeNumberがお送りする、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けする「Data Engineering News」のポッドキャスト版です。

Web版はこちら。

Data Engineering News

※このポッドキャストはGoogleの「NotebookLM」を使って生成しました。読み方やイントネーションなど一部正しくない場合がありますが、予めご了承ください。

サマリー

2025年6月の《Data Engineering News》では、AI機能の統合とApache Icebergの普及が主要なテーマです。特に、DatabricksのマネージドApache Icebergテーブルのプレビュー公開や、Snowflakeのデータ活用の進化が注目されています。

AI機能の統合と進化
DEN_MC1
こんにちは。今回の情報探索へようこそ。今日はですね、primeNumber社のデータエンジニアリングニュース
2025年6月版から、データエンジニアリング界隈のちょっと気になる動きをピックアップしていこうと思います。
DEN_MC2
宜しくお願いします。はい、今月もいろいろなアップデートがありましたけれども、特に注目したいのはやっぱりAI機能の統合ですかね。
あとはApache Icebergみたいなオープンフォーマットの普及、それから開発者体験の向上といった流れでしょうか。
あなたにとって特に重要そうなポイント、これを中心に最新動向を見ていけたらと思います。
DEN_MC1
はい、お願いします。では早速、Google BigQueryからいきましょうか。
特に注目はGemini、あのGoogleのAIを使った機能拡張ですよね。
テーブルのメタデータから説明を自動生成したりとか、SQL翻訳機能が強化されたりとか。
DEN_MC2
そうですね、これはデータカタログの整備なんかをすごく効率化する上で助けになりますよね。
あとは異なるSQL方言からの移行、これもスムーズになるかなと。
AIがより身近なツールとして統合されてきている感じがします。
ただ、自動生成された説明が本当に業務のニュアンスまで捉え切れるかっていうのは、
少し運用しながら見ていく必要があるかもしれません。
それともう一つ、外部のIcebergテーブルに対するマテリアライズドビュー。
これがGA、つまり一般提供開始になった点、これも結構大きいですね。
DEN_MC1
ああ、Iceberg上のデータにBigQueryの中でマテリアライズドビューが使えるようになったと。
これ具体的にはどういうメリットがあるんでしょう。
DEN_MC2
これはですね、データをわざわざBigQueryにコピーする、その手間とかコスト、これをかけずに済むっていうのがまずあります。
で、Icebergっていうオープンフォーマット上のデータに対して、クエリの性能を上げつつコスト効率もよくできるという。
DEN_MC1
なるほどなるほど。データの置き場所の選択肢が広がるってことですね。
DEN_MC2
ええ、そういうことです。
DEN_MC1
では次に、Snowflakeを見てみましょう。
Snowflake Summit 2025、これも大きな発表がありましたね。
Snowflake Intelligenceですか、自然言語で企業のデータと対話できるっていうのはかなりインパクトありますよね。
DEN_MC2
おっしゃる通りですね。これは特にビジネスユーザーの方々にとっては、データ活用のハードルを劇的に下げる可能性があるかなと。
SQLをかけなくてもAIに問いかけるだけでインサイトが得られるようになるかもしれないです。
DEN_MC1
うーん、それはすごいですね。
DEN_MC2
ただ一方でちょっと注意も必要かなと思います。
AIが出してきた結果をそのまま鵜呑みにしちゃうと、データの誤解釈につながるリスクもありますから。
ユーザー自身がその結果が妥当かどうかを判断するリテラシー、これも同時に必要になってくるでしょうね。
DEN_MC1
確かに、それはありますね。便利さの裏返しというか。
技術的な面では、Apache Icebergのサポート強化、これはどうですか。
外部カタログとの連携、Catalog Linked Databasesとかが発表されてましたけど。
DEN_MC2
ああ、それはですね、Snowflakeがよりオープンなデータエコシステムの方へ舵を切ったっていう明確なサインだと思います。
特定のプラットフォームにデータを囲い込むんじゃなくて、Icebergみたいなオープンフォーマットを介して自由にデータを活用したいっていう、あなたのニーズに応えようとしている動きですよね。
DEN_MC1
なるほど、データの所有権とか柔軟性っていうのが重視されてるんですね。
DEN_MC2
そうですね、そういう流れです。
DEN_MC1
続いて、Databricksですけど、こちらもIceberg関連で動きがありましたね。
Databricksの動向
DEN_MC1
マネージドなApache Icebergテーブルがプレビューになったとか。
DEN_MC2
その通りです。
これもIcebergっていうオープンフォーマットの良さを生かしつつ、Databricksのプラットフォームが持っている独自の最適化機能、例えばファイル圧縮とかデータスキッピングとか、そういう恩恵も受けられるっていうのが特徴ですね。
ふむふむ。
オープン性とプラットフォームの性能、これを両立させようという取り組みかなと。
DEN_MC1
なるほど。
あと、AI Gatewayの一般提供開始、これも注目ですよね。
これはどういうものですか?
DEN_MC2
これはですね、いろいろな生成AIモデルがありますけど、それへのアクセスを一元的に管理したり監視したりするためのサービスです。
どのモデルを誰がどういうふうに使ってるかっていうのを把握して、コスト管理とかセキュリティ、コンプライアンスを担保する上でもすごく重要になってきます。
DEN_MC1
ああ、なるほど。AIを本番で使う上でのガバナンス強化につながるわけですね。
DEN_MC2
ええ、今後AI活用を進める上では、結構不可欠な要素になってくるんじゃないでしょうか。
DEN_MC1
国産ツールからもいくつか、ETL、ELTサービスのTROCCOですが、ShopifyのGraphQL APIに対応したり、新しいコネクタがいろいろ増えたり、あと、JSONカラムの展開が簡単になったり、細かい改善が続いてますね。
DEN_MC2
ええ、そうですね。日々のデータ連携作業の効率化に直結する、地味ですけど重要なアップデートですよね。
特にShopify対応の強化なんかは、国内の多くのEC事業者さんにとっては直接的なメリットが大きいんじゃないかなと思います。
DEN_MC1
確かにそうですね。
DEN_MC2
こういう改善の積み重ねが、全体の生産性を着実に上げていくんですよね。
DEN_MC1
データカタログのCOMETAでは、料金プランがユーザー数無制限になったのと、AIアシスト機能で作ったSQLをUIから直接実行できるようになった後。
DEN_MC2
ユーザー数を気にせず導入できるようになったっていうのは、特にチームとか組織全体でデータカタログを活用したいっていう場合には、大きな後押しになりますね。
DEN_MC1
ええ。
DEN_MC2
それと、AIが生成したSQLをすぐに試せるっていうのは、データ探索のサイクルが早まりますし、もっと気軽にデータに触れる文化みたいなものを育てやすくなるんじゃないでしょうか。
DEN_MC1
今回、ざっと見渡しただけでも、どのプラットフォームもAI機能の統合、それからIcebergを中心にしたオープンフォーマットへの対応強化、そして開発者とかアナリストの生産性向上、ここに力を入れてるっていう共通点が見えてきましたね。
DEN_MC2
まさにおっしゃる通りです。データエンジニアリングの世界は、よりインテリジェントに、よりオープンに、そして、まあ、より使いやすく進化しようとしてるんだなと感じますね。
DEN_MC1
さて、ここでですね、あなたに一つちょっと考えてみるきっかけみたいなものを投げかけてみたいんですが、これだけAIがデータツールに深く組み込まれてくると、将来データ専門家に求められるスキルセットってどう変わっていくんでしょうかね。
単にデータを準備して分析する、それだけじゃなくて、AIが生み出す洞察の質をちゃんと見極めて、それをどうビジネス価値につなげていくかというような解釈力とか応用力、そっちの方により重点が移っていくのかもしれないなと。
この変化の波にどう備えていきますか。少し考えてみるのも面白いかもしれませんね。
06:51

コメント

スクロール