DEN_MC2
DEN_MC1
{openStarringSelector = false;})"
wire:loading.class.remove="cursor-pointer"
wire:loading.class="cursor-wait"
aria-label="出演者を紐付ける">
DEN_MC1
{openStarringSelector = false;})"
wire:loading.class.remove="cursor-pointer"
wire:loading.class="cursor-wait"
aria-label="出演者を紐付ける">
DEN_MC2
DEN_MC1
こんにちは。今回の情報探索へようこそ。 今日はですね、primeNumber社のデータエンジニアリングニュース
2025年7月版から、データエンジニアリング界隈のちょっと気になる動きをピックアップしていこうと思います。
DEN_MC2
はい。今回の情報源は、primeNumber社提供のデータエンジニアリングニュース2025年7月まとめですね。
今日の目標としては、BigQueryとかSnowflake、AWSといった主要なデータプラットフォームの最新アップデートを追いかけて、
それらがあなたにとって具体的にどんな意味を持つのか、その重要性を掘り下げていければと。
DEN_MC1
この分野、ほんと変化が早いですからね。
DEN_MC2
ええ。ですから今回の情報が皆さんの知識のアップデートに少しでも役立てば嬉しいです。
DEN_MC1
さて、じゃあ早速見ていきましょうか。まずはGoogleBigQueryからですね。
やっぱり注目はガバナンス強化とAI統合ですかね。
カラム単位でのデータポリシー適用がプレビューになったと。
DEN_MC2
これ具体的にはどういう?
はい。これはですね、文字通りなんですけど、テーブルの各カラムですね。
そこに直接アクセス制御とかマスキングルール、そういったデータポリシーを設定できるようになったということです。
DEN_MC1
へえ、カラムごとに?
DEN_MC2
ええ。例えば個人情報が含まれる特定の列だけアクセス制限したり、
表示時に自動でマスキングするとか、そういう制御を一元管理できるんですよ。
DEN_MC1
ということはデータガバナンスを後付けじゃなくて設計段階からもっと具体的に考えられるようになるってことですよね。
DEN_MC2
まさにまさにその通りです。機密データに対するルールがそのデータ自体に紐づくので、コンプライアンス対応がすごくやりやすくなりますし、管理の精度も上がりますね。
データガバナンスの考え方が一歩進んだアップデートかなと。
DEN_MC1
なるほど。で、次はAI統合Gemini for Google Cloud APIがBigQueryでデフォルト有効になった。
これはちょっと驚きましたね。追加設定なしでも使えるんですか?
DEN_MC2
そうなんです。BigQueryのコンソール上で特にAPI利用の手続きとかをしなくても、GeminiによるSQLの生成支援とかコード保管とか、そういった機能が制限付きですけど、無料で試せるようになったんですね。
DEN_MC1
デフォルトで有効ですか?GoogleとしてもこれはかなりAI活用を進めたいっていう意向の現れなんでしょうかね。
DEN_MC2
そう考えられますね。開発者にとってはやっぱりGeminiモデルを試すその心理的なハードルがグッと下がりますし、あとはプロジェクトごととか環境ごとにAPIの有効化を管理する、そういう手間が省けるので運用コストの削減にもつながるかなと。
もちろん組織のポリシーとかで不要な場合は設定で無効化もちゃんとできます。
DEN_MC1
CSV関連で細かいアップデートもありますね。外部テーブルとかロード処理のnull_markersとソースコラムマッチオプション、プレビューですけど、これ地味ですけど現場では結構助かる改善に見えますがどうでしょう?
DEN_MC2
おっしゃる通り、これらはETL処理の柔軟性を高めるものですね。null_markersを使うとデータソース側でNullを意味する特定の文字列、よくあるマイナスとかNAとか、そういうのをBigQuery側で自動的にちゃんとNull値として扱ってくれるんです。
だから事前のデータクレンジングの手間が減らせる。
DEN_MC1
それは楽になりますね。
DEN_MC2
もう一つのソースコラムマッチは、CSVファイルの列の順番が元のソース側で変わっちゃっても、ヘッダー名を見てちゃんと正しくデータを読み込めるようにするオプションです。日々の運用で結構ありがちな問題を吸収してくれる、そういう改善ですよね。
DEN_MC1
あとSQL関連では、パイプ構文の機能拡張、DISTINCTとかWITH、名前付きウィンドウ関数が使えるようになったと。
DEN_MC2
パイプ構文、NGDってやってですね、処理のステップを順にかけるんで、複雑なクエリーの流れが追いやすくなるっていう利点があります。
今回そこにDISTINCTでの重複排除とか、WITHを使った共通テーブル式、CTEですね、その定義とか、名前付きウィンドウ関数とか、そういうのが組み込めるようになったんで、より直感的で読みやすいSQLを書くのを支援してくれるっていう感じですね。
DEN_MC1
いやー、BigQueryだけでも結構盛りだくさんでしたね。
DEN_MC1
では次にSnowflakeを見ていきましょう。
こちらはIceberg連携の強化とパフォーマンス改善、これが大きなテーマみたいですね。
まず外部カタログ、例えばAWS Glueとかで管理されているIcebergテーブルに対するDynamic Tableのサポートが一般提供開始、GAしたと。これはどういう意味合いなんでしょう?
DEN_MC2
はい。ここで特に興味深いのはですね、そのAWS Glueデータカタログなんかで管理している既存IcebergテーブルをSnowflakeの中にわざわざデータをコピー、複製することなく、
そのままソースとして使って継続的にデータを変換更新するパイプライン、つまりDynamic Tableですね。これを構築できるようになったという点なんです。
DEN_MC1
ということは、データレイクにあるデータをわざわざSnowflakeに移動させずに、Snowflakeの強力な変換エンジンを使えると、これはデータアーキテクチャーの選択肢が広がりそうですね。
DEN_MC2
まさにその通りですね。データレイク中心のアーキテクチャーをとっている場合でも、Snowflakeをすごくシームレスに組み込めるようになります。
例えば、外部のSparkジョブなんかで更新されたIcebergテーブルのデータを、Snowflake上でほぼほぼリアルタイムに集計加工して、常に最新の状態に保つ、みたいな活用が可能になりますね。
DEN_MC1
そしてこれも大きなニュースですが、外部管理Icebergテーブルへの書き込みサポートがプレビュー開始。これまでは読み取り専用だったのが書き込みも可能になったと。
DEN_MC2
これは非常に重要なアップデートだと思います。
INSERT, UPDATE, DELETE, MERGEといったいわゆるDML操作ですね。これがSnowflakeから外部のIcebergテーブルに対して直接実行できるようになるんです。
これによってSnowflakeとそれからSparkとかFlinkみたいな外部のIcebergエコシステムとの間で、本当の意味での双方向のデータ連携が実現するということになります。
DEN_MC1
双方向ですか。具体的にはどんなことができるように。
DEN_MC2
例えばですね、Snowflakeの得意なSQLベースでのデータ加工とか分析をやって、その結果を元のデータレイク上のIcebergテーブルに書き戻して、それを他のシステムとかチームと共有するみたいなことが可能になります。
Snowflakeを単なるデータウェアハウスとしてだけじゃなくて、データレイクに対する強力な処理エンジンとしても位置づけられるようになって、より柔軟なデータアーキテクチャの設計ができるようになりますね。
DEN_MC1
なるほど。パフォーマンス関連では、Snowpipe Streamingに事前クラスタリング機能、これもブレビューですけど、追加されたと。
DEN_MC2
はい。Snowpipe Streamingは、データを継続的にSnowflakeに取り込む機能ですけど、この新機能はデータを取り込む際に、あらかじめテーブルに設定されたクラスタリングキーに基づいて、データをソートしながら格納するというものです。
DEN_MC1
ふむふむ。
DEN_MC2
データがテーブルに入る段階である程度整理されるので、特に到着順序が保証されないようなストリーミングデータの場合に、高速のクエリーパフォーマンスの向上が期待できるというわけですね。
DEN_MC1
なるほど。取り込みと同時に最適化も進むと。あと標準テーブルで構造化データ型OBJECTとかARRAYがサポートされて一般提供開始。これは従来のVARIANT型とはどう使い分ける感じなんでしょう?
DEN_MC2
VARIANT型は、JSONみたいな半構造化データをスキーマ定義なしに柔軟に格納できるのが利点でした。ただ一方でデータ構造がちょっと曖昧になりがちっていう側面もあったんですね。
今回GAになったOBJECT型とかARRAY型を使うと、ネストした複雑なデータ構造を持つ場合でもテーブル定義の段階でもっと明確なスキーマ、つまり各要素のデータ型とかそういうのを定義できるんです。
DEN_MC1
あーなるほど。
DEN_MC2
これによってデータの構造がよりクリアになってクエリーも直感的で型安全な記述が可能になります。データモデリングの選択肢が増えたと言えますね。
DEN_MC1
その他にもCortex AI機能の拡充とか、Snowflake Native Appsでの機械学習モデルサポートとかも進んでるんですね。プラットフォームとしてどんどん機能が広がっている感じがしますね。
DEN_MC2
AI関連では観測可能性、オブザーバビリティですね。これを高める機能とか、あとマイクロソフトチームとの連携、テーブルやビューへの自動説明付与とかかなり実用的な機能が追加されています。
Native AppsでのMLモデルサポートは、Snowflake上で開発配布されるアプリケーションに外部プラットフォームなしで機械学習機能を組み込めるようにするもので、Snowflakeエコシステムの拡大につながりそうですね。
DEN_MC1
では、次にAWS関連のアップデートを見てみましょうか。QuickSightとS3が中心ですね。まず、Amazon Q in QuickSightでトピックに対するカスタム指示機能、これが一般提供開始されたと。
DEN_MC1
まず、Looker Studio本体の改善から。
BigQueryデータソースのパフォーマンスが向上したというのは、どういう仕組みなんですか?
DEN_MC2
これはショートクエリ最適化モードという機能が、BigQueryコネクタで利用可能になったためです。
Looker Studioからのクエリに対して、BigQuery側が、このクエリは非常に短時間で結果を返せるなって判断した場合に、通常の非同期ジョブ実行のプロセスをスキップして直接結果を返すようになるというものです。
DEN_MC1
じゃあ、ダッシュボードの表示が早くなる可能性があるということですね。適用される条件は?
DEN_MC2
ドキュメントによると、レポートのデータソースが閲覧者自身のGoogleアカウント認証情報を使っている場合とか、あとはレポート所有者の認証情報を使っていても、自分が所有者じゃない場合とか、そういう時に適用される可能性があるようです。
特にインタラクティブな操作時のレスポンス向上につながりそうですね。
DEN_MC1
その他の改善点もいくつかまとめて紹介されてますね。
レポートに説明文を追加して検索しやすくしたり、グラフの整列オプションが増えたり、あと印刷に適したAオンサイズのキャンバス追加とか、画像の代替テキスト入力も可能になった。
DEN_MC2
レポートの説明文はLooker Studioのホーム画面での検索対象になるので、レポートが増えてきた時に目的なものを見つけやすくなりますね。
画像の代替テキストは、スクリーンリーダーを使うユーザーのために画像の内容を説明するテキストを設定する機能で、Webアクセシビリティのガイドライン、WCAGとか、そういうのへの対応としても重要です。
DEN_MC1
ふむふむ。フィルター操作で関連するチャートをハイライトする機能とか、閲覧者が不適切なコンテンツを報告できる機能、新しいパートナーコネクタの追加なんてのもあったようです。
そして有償版のLooker Studio Proでは、会話分析コードインタープリタなるものがプレビューで登場したとか、これはなんかかなり高度な機能っぽいですが。
DEN_MC2
これは非常にあの興味深い機能ですね。ユーザーが自然言語で分析に関する質問とか指示、例えば過去3ヶ月の製品列売上トレンドをクラスター分析してみたいなのを投げかけると、
Looker Studio Proがそれを解釈して、Pythonコードを生成して、そのコードを実行して高度な統計分析とか複雑な可視化を生成してくれるというものなんです。
DEN_MC1
えっと、自然言語の指示からPythonでの分析実行まで自動でやってくれるんですか?すごいですね。
DEN_MC2
ええ。なので、これまで専門的なスキルが必要だった高度な分析へのアクセスを、より広いユーザーに提供する可能性を秘めてますね。
ただまあ、強力な機能でもあるので、デフォルトでは無効になっていて、管理者が明示的に有効化する必要があるようです。
DEN_MC1
次はdbtを見てみましょうか。こちらはセマンティックレイヤーとBIツールの統合、これが大きなテーマのようですね。
Tableau Cloudとの統合が一般提供開始、Power BIとの統合もプレビューになった、と。
DEN_MC2
これはdbtのエコシステムにとってかなり大きな前進と言えると思います。
dbtのセマンティックレイヤーっていうのは、ビジネスロジックとか重要な指標、メトリックスですね、その定義を一元化にする場所なんですけど、
今回の統合によって、ここで定義したメトリックスをTableau CloudとかPower BIといった主要なBIツールから直接簡単に利用できるようになるんです。
DEN_MC1
これによってユーザーにはどんなメリットがあるんでしょうか?
DEN_MC2
最大のメリットは、やっぱり組織全体での指標の一貫性担保ですね。
各BIツール側で個別に売上とかアクティブユーザー数みたいな指標を計算したり定義したりする必要がなくなって、
dbtで定義された信頼できる唯一の定義、Single Source of Truthですね、それを誰もが利用できるようになる。
これによって部署間でのレポート数値のズレとか解釈の違いっていった問題を大幅に減らせることが期待できます。
分析の信頼性が向上してデータに基づいた意思決定がよりスムーズになりますね。
DEN_MC1
なるほど。指標定義が乱立するのを防いでガバナンスを効かせやすくもなると。
その他にも、Saved queriesのパラメータ利用とかITライセンスユーザーによるグローバル接続設定管理、
大規模プロジェクト向けのセマンティックレイヤーメタデータクエリのPaginationといった改善もあったみたいですね。
DEN_MC2
ええ、これらは開発体験とか運用効率、あとスケータビリティを高めるための改善ですね。
Saved queriesのパラメータ化はクエリの再利用性を高めますし、
グローバル接続設定の一元管理はセキュリティ統制と管理構成の削減につながります。
Paginationは非常にたくさんのモデルとかメトリックスを持つ、大規模なDBTプロジェクトでのパフォーマンス問題を緩和するのに役立ちますね。
DEN_MC1
では、次はDatabricksに移りましょうか。
こちらもAI関連と利便性向上が目立ちますね。
まず、Agent Bricks、マルチエージェントスーパーバイザー、これがベータ版で登場したと。これはどういうものでしょう?
DEN_MC2
これ、異なる専門性とかスキルを持つ複数のAIエージェント。
例えば、コード生成が得意なエージェントとか、社内ドキュメント検索が得意なエージェントとか、
そういうのを組み合わせて、一つの協調システムとして機能させる。
そういうものをノーコードのインターフェースで構築できる機能です。
DEN_MC1
複数のAIエージェントを連携させて、より高度なタスクの自動化を目指す、そういう流れですね。
DEN_MC2
その通りです。いわゆるマルチエージェントシステムの構築を支援するものですね。
さらに、人間がエージェントの実行結果をレビューして、フィードバックを与えるためのレビューアップというのとの連携も用意されていて、
これによってエージェントシステムのパフォーマンスを継続的に改善していく、そういう仕組みも組み込まれています。
DEN_MC1
へえ、面白い取り組みですね。
もう一つ、Catalog ExplorerでLLMを使ってテーブルデータを探索できる機能、これもベータ版で提供開始されたとか。
DEN_MC2
はい。これはDatabricksのデータカタログ画面。
Catalog Explorer上でテーブルの内容について自然言語で質問すると、
アシスタントがテーブルのメタデータ、カラム名とかコメント、データ型とか、場合によってはテーブルの実際のデータとか利用パターンなんかも考慮して、
その質問に答えるためのSQLクエリを自動生成してくれる機能です。
ユーザーはそのSQLを確認、修正してから実行できる、と。
DEN_MC1
SQLを書かなくても自然言語でデータの内容を探れるようになる、と。これは便利そうですね。
DEN_MC2
ええ。データアナリストとか普段SQLをあまり書かないユーザーにとっても、データカタログ内の情報を活用しやすくなる可能性はありますね。
DEN_MC1
で、サーバーレスノートブックでアイドル状態になってクラスターが停止した後でも、再設録時にPythonの変数が復元されるようになった。
というのも、これ開発者にとっては地味に嬉しい改善じゃないでしょうか。
DEN_MC2
ああ、これは非常に実用的だと思います。
サーバーレス環境って、コスト効率のために一定時間操作がないとコンピュートリソースが自動停止しますけど、
従来はその時にノートブック内の変数とか計算途中の状態が失われちゃうことがあったんです。
この新機能では、停止前に変数の状態を自動でスナップショットとして保存して、ユーザーが再度ノートブックに接続した時に、その状態を自動的に復元してくれるんです。
DEN_MC1
コーディング作業が縦断されても、なんていうか、思考を途切れさせることなくスムーズに再開できる、と。
これは開発体験の向上に大きく貢献しそうですね。
DEN_MC2
まさにその通りですね。特に長時間の計算とか複雑なデータ操作を行っている時には、これは大きな助けになるでしょう。
DEN_MC1
Databricksは他にも本当にたくさんのアップデートがありますね。
アラート機能のGit連携、ストリーミングテーブルとかマテリアライズドビューのデルタシャーリングでの共有がGAになったり、
Structured Streamingのリアルタイムモードプレビュー、Databricks Appsでのレイクハウスリソースサポート、
Power BIコネクターのADBCサポートプレビュー、セキュリティとコンプライアンス関連のアドオン提供拡大、
DEN_MC2
TROCCOのConnectorにおける AI 支援とか、Databricksの変数復元、各ツールの UI 改善とかがそれに当たりますね。
DEN_MC1
そうですね。データエンジニアリングの作業は依然として複雑ですけど、ツール側がその複雑さを吸収してくれて、より少ない労力でより高度なデータパイプラインの構築とか管理ができるように進化していますね。
DEN_MC2
最後にガバナンスとセキュリティの強化、これもBigQueryのカラム単位ポリシーとか、AWS S3 のコンパクションにより最適化、TROCCOのプライベートリンク対応とか、地味ながらも重要なアップデートが随所に見られました。
DEN_MC1
ええ。データ活用の自由度を高める一方で、それを安全かつ統制された形で行うための基盤整備も同時に進んでいると。
DEN_MC2
ではあなたにとって、これらのアップデートはどう関わってくるでしょうか。まず、この分野の最新動向を継続的に追いかけることの重要性と、あとその難しさを改めて感じますよね。変化が本当に早いですから。
DEN_MC1
本当ですね。次から次へと新しい機能が出てきて。
DEN_MC2
ええ。これらのツールは、ETL処理、AI機能の組み込み、ガバナンスの徹底といった従来は専門家が多くの時間と労力をかけていたタスクを、より効率的に、そして場合によっては自動化することを目指しています。
なので、これらのアップデートを理解して活用することで、あなたは手元にあるデータをより迅速に、より深く、そしてより安全に活用できるようになるはずです。
分析の質を高めたり、データパイプラインの構築運営を効率化したり、コンプライアンス要件を満たしやすくしたり、といった具体的なメリットにつながっていくと思います。
DEN_MC1
技術的な複雑さをツールがうまく抽象化してくれて、ユーザーは本来やりたいこと、つまりデータから価値を引き出すことにより集中できるようになるという方向性でしょうか。
DEN_MC2
まさにそう言えるでしょうね。DatabricksのエージェントブリックスみたいなノーコードでのAIエージェント構築支援とか、TROCCOのConnector Builderみたいなコネクタ半自動生成の動きはその典型例です。
技術的な詳細を知らなくても高度な機能を利用できるようにするというトレンドは今後も加速していくと考えられます。
DEN_MC1
なるほど。ツールをうまく使いこなすことがデータ活用を鍵になっていくわけですね。
DEN_MC2
そう考えられますね。
DEN_MC1
今回の情報探索はここまでとしましょう。いや、滝に渡るアップデート情報、非常に参考になりました。ありがとうございました。
DEN_MC2
こちらこそありがとうございました。最後に一つだけ、リスナーのあなたに問いかけをさせてください。
データパイプラインの構築やAIエージェントの作成といった、これまで専門知識が必要だった複雑なタスクが、ツールによってますます自動化され中小化されていく中で、
私たちデータに関わる専門家が、これから新たに磨くべきスキルとか、より注力すべき領域って何になるんでしょうか。
もしかしたら、それはどうたって作るかというハウの部分よりも、何を、なぜ作るのか、つまりビジネス上の課題を深く理解して、
解くべき適切な問いを設定し、そしてツールが生み出した結果を鵜呑みにせず批判的に解釈し、その意味合いを評価する能力なのかもしれません。
この問いについて、日々の業務の中で少し考えてみていただけると、何か新しい発見があるかもしれませんね。