6月末に米国サンフランシスコで米Databricksが開催した「Data + AI 2022」。本稿では、会期中に同社のCo-founder and Chief Technologist(共同創業者兼チーフテクノロジスト)であるMatei Zaharia(マテイ・ザハリア)氏にインタビューの機会を得たため、イベントで発表された新サービスを中心とした話を紹介する。
同社が提供するDWH(データウェアハウス)とデータレイクの両機能をカバーするアーキテクチャ「Lakehouse」は、クラウド上でApache Sparkですべてのデータにアクセスし、Amazon S3、Azure Data Lake Storage(ADLS)、HDFS(Hadoop Distributed File System)など、既存のデータレイクファイルストレージ上に設置されるオープンソースストレージレイヤ「Delta Lake」、ML(機械学習)のライフサイクルを管理する「MLflow」、DWHである「Databricks SQL」などのサービスで構成している。
ザハリア氏はDatabricksのチーフテクノロジスト兼共同設立者であると同時に、米スタンフォード大学コンピュータサイエンス学部助教授も務める。
2009年にカリフォルニア大学バークレー校で博士号を取得した際にApache Sparkプロジェクトを開始し、MLflow、Delta Lake、Apache Mesosなど、広く使われているそのほかのデータ、機械学習ソフトウェアに取り組んできた。
現在では、Databricksとスタンフォード大でデータマネジメントと機械学習の幅広いプロジェクトを進めており、Apache SparkとML(機械学習)のライフサイクル管理を行う同社サービスである「MLflow」のオリジナルクリエイターという経歴を持つ。
基調講演において、同氏はデータ共有ソリューションの「Delta Sharing」と、データガバナンスソリューションの「Unity Catalog」について重点的に説明していた。そのため、インタビューの切り出しとして、まずは両ソリューションに関することから質問をスタートした。
Delta Sharingは安全なデータ共有のためのオープンプロトコル
--今回の基調講演ではDelta SharingとUnity Catalogに関する説明に時間を割いていました。両ソリューションの位置づけ、なぜ必要だったのかなど、開発の背景について教えてください。
ザハリア氏(以下、敬称略):Delta Sharingは、あらゆるユースケース、ツール、クラウド上でデータの共有を可能にする、安全なデータ共有のための世界初のオープンプロトコルです。
企業が顧客、パートナー、サプライヤーと簡単かつ安全にデータを交換したいと考えているため、データ共有はデジタル経済において非常に重要なものとなっています。例えば小売業者は、取り扱う各ブランドの在庫データをタイムリーに共有することを望んでいます。
しかし、データ共有ソリューションは、これまで単一のベンダーや商用製品に紐づけられることにより、データアクセスが独自のシステムに縛られ、異なるプラットフォームを使用する組織間のコラボレーションを制限してきました。
Delta Sharingを使えば、プロバイダーはライブ感覚で既存データを利用者の環境に複製する必要なく共有することができます。当社のAPIにより、プロバイダーは利用者のプラットフォームに関係なく、あらゆる利用者へのアクセス許可を簡単に管理できます。
当社のコネクターAPIと複数のオープンクライアントのサポートにより、データ利用者は、特定のベンダーのソリューションを購入して、それに縛られることなく、自分の選択するコンピューティングプラットフォームから共有データにアクセスできます。
Data + AI Summitで発表した「Databricks Cleanrooms」(※編集部注)は、今後数カ月で利用が可能になる予定です。これにより、プライバシーを重視した方法でデータ複製を必要としない安全なホスト環境を使用し、組織間でデータの共同計算を実行する手段を提供します。
※従来の一般的なデータクリーンルームは、共同データで計算を実行するためのセキュアな環境が個社のプラットフォームごとに必要であり、利用はSQLのみやデータコピーが必要など既存ソリューションでは限定的だったという。
詳細な列レベルのリネージ機能を追加した「Unity Catalog」
一方、Unity CatalogはすべてのデータとAI資産に対する一元的なガバナンスソリューションを提供し、組み込みの検索と検出、自動リネージ、あらゆるクラウド上のLakehouseを効果的にガバナンスするパフォーマンスとスケーラビリティを提供します。
また、Unity Catalogでは企業にLakehouse内のデータライフサイクルの完全なビューを提供するデータリネージ機能を追加しました。
Unity CatalogはDatabricksプラットフォームと密接に統合することで、SQL計算、Spark計算、ML計算、ノートブック、ダッシュボードにわたる詳細な列レベルのリネージを提供します。
新機能を利用することで、Lakehouse内のデータがどこから来たのか、誰がいつ作成したのか、時間の経過とともにどのように変更されたのか、どのように利用されているのかなどを可視化することができます。
さらに、データリネージ(トレーサビリティ情報)はGDPR(一般データ保護規則)などのコンプライアンス規制の対象となるデータフローの追跡を容易とし、組織がコンプライアンス基準をより適切に満たすことを支援します。
このようなデータトレーサビリティの要素は、お客さまが法的要件を満たすための最新のデータアーキテクチャの重要な要素となります。