6月12日~14日に米サンフランシスコで年次カンファレンス「Data + AI Summit 2024」を開催したDatabricks(データブリックス)。初日の基調講演では「Unity Catalog」のOSS(オープンソースソフトウェア)化が発表された。そもそも、なぜOSS化に踏み切ったのだろうか。その真意について2日目の基調講演で語られた、Databricks Chief Technology Officer and Co-Founder(最高技術責任者兼共同創業者)のMatei Zaharia(マテイ・ザハリア)氏の話をお伝えする。

  • Databricks Chief Technology Officer and Co-Founder(最高技術責任者兼共同創業者)のMatei Zaharia(マテイ・ザハリア)氏

    Databricks Chief Technology Officer and Co-Founder(最高技術責任者兼共同創業者)のMatei Zaharia(マテイ・ザハリア)氏

ザハリア氏は、Databricksのチーフテクノロジスト兼共同設立者であると同時に、米スタンフォード大学コンピュータサイエンス学部助教授を務めている。2009年にカリフォルニア大学バークレー校で博士号を取得した際にApache Sparkプロジェクトを開始し、MLflow、Delta Lake、Apache Mesosなど、広く使われているそのほかのデータ、機械学習ソフトウェアのプロジェクトなどに取り組んできた。

Unity Catalogがオープンソースにとって、何を意味するのか?

まずは、Unity Catalogのおさらいから。そもそもUnity Catalogは、データとAIのためのガバナンスレイヤを提供し、データブリックスのプラットフォーム内で、構造化データ、非構造化データ、ML(機械学習)モデル、ノートブック、ダッシュボードなど、さまざまなデータやデータアセットをシームレスに管理することを可能としている。現在は10TB以上のデータを扱い、ユーザーは1万以上、アクティブユーザーは1500人となっている。

一方、Unity Catalog OSSはDelta Lake、Apache Iceberg、Apache Hudiのクライアントを6月中に提供予定の「Delta Lake UniForm」を介して読み取ることが可能。さらにIceberg REST CatalogとHive Metastore(HMS)のインタフェース標準もサポートし、表形式・非表形式のデータ、MLモデル、生成的AIツールなどのAIアセットを横断的にガバナンスできるため、組織は管理の効率化が図れるというものだ。

Unity Catalogが持つ“ガバナンス”がオープンソースにとって、何を意味するのか?このような問いからザハリア氏は説明を始めた。

同氏によると、データとAIを複合的に利用するには、どのようなアプリケーションでもガバナンス、セキュリティ、クオリティ、コンプライアンスが障壁になっていると指摘。実際に、AIの規制については各国政府間レベルで議論されている。そのため、正当であるか否かといったデータの出自を判断してモデルを構築し、アプリケーションをデプロイしなければならないという。

この記事は
Members+会員の方のみ御覧いただけます

ログイン/無料会員登録

会員サービスの詳細はこちら