Databricks(データブリックス)は6月12日~14日、米サンフランシスコのMoscone Centerで年次カンファレンス「Data + AI Summit 2024」を開催した。本稿では、同12日に行われた米Databricks Co-founder and CEO(共同創業者兼最高執行責任者)であるAli Ghodsi(アリ・ゴディシ)氏のキーノートを紹介する。
「Data Intelligence Platform」を掲げるDatabricks
Data + AI Summit 2024には世界140カ国・地域からオンラインも含めて6万人が参加し、リアル参加も1万6000人となり、セッション、トレーニングは600超、200のデータチームがプレゼンテーションを行い、エキスポエリアへの出展は143を数えた。
また、同社を象徴するものと言っても過言ではない、OSS(オープンソースソフトウェア)の分散処理フレームワーク「Apache Spark」と、オープンソースストレージレイヤ「Delta Lake」の年間ダウンロード数がともに10億、ML(機械学習)のライフサイクルを管理する「MLflow」が2億、そして同社社員が貢献したオープンソースコードは1200万行に達したことを紹介した。
ゴディシ氏は「近年では“Data + AIカンパニー”になりたいと考えている企業は世界中に溢れています。今後、5年は企業においてデータとAIが戦略的に重要であることが示されており、勝負に勝っていけなくなると考えられています。財務やリテール、メディア、ヘルスケア、公共事業であっても、あらゆる場所でデータとAIが使われる。従来から当社のミッションは世界中の人がデータとAIを使えるようにしたいとの想いから“データとAIを民主化する”をミッションとしています」と述べた。
同氏が言うように、DatabricksではデータとAIの民主化を推進し、データ統合とデータ分析、AIの活用を可能とするSaaS(Software as a Service)型統合データ分析基盤として「レイクハウスプラットフォーム」を提供しており、これにAI機能を加えて「Data Intelligence Platform」と位置付けている。
データとAIの民主化に向けた3つの課題
データとAIを民主化するにあたり、同氏がさまざまな企業と対話する中で3つの共通する課題が浮き彫りになったという。それは「Everyone wants AI(皆がAIを欲している)」「Security and privacy are under pressure(セキュリティとプライバシーに対するプレッシャー)」「Data estate is fragmented(データの断片化)」の3つだ。
Everyone wants AIについて、ゴディシ氏はベンダーが提供するLLM(大規模言語モデル)とオープンソースで提供するLLMのベンチマークを示しながら、最近ではオープンソースのLLMがベンダーが提供するLLMに追随しつつあるという。
そのうえで、同氏は「どのLLMであっても関係なく、独自のデータでモデリングし、ユースケースを創出できるものを求めています。つまり、自社のユースケースに使えるか否かに気を配っているほか、85%のユースケースは生成AIの本番環境に至っておらず、生成AIを自社に取り込み、データを活用して本番環境で使えるかにかかっています。そのためにはモデルの質を高くするとともにコストを抑え、プライバシーを担保した形にするべきです」と話す。
Security and privacy are under pressureに関しては、世界的な対応策が立ち上がりつつあり、AI活用に伴うレギュレーションとデータ保護、サイバー攻撃の領域で議論が交わされている。とは言え、構造化データ、非構造化データ、AIモデル、Notebookといったデータ資産全体のガバナンスを担保することは難しいとのことだ。
Data estate is fragmentedでは、生成AIやML、BIツール、DWH(データウェアハウス)、ストリーミング、ガバナンスといった多くのソフトウェアがあるため状況の把握が困難になっていることに加え、重複していることから複雑性が増し、コストも増大してしまっている状況を指摘。
OSS化したUnity Catalogでデータのセキュリティ、プライバシーを担保
そのため、同社ではData Intelligence Platformにより、これらの課題を解決する。一環として、イベント1週間前となる6月4日には大規模な分析テーブル向けのフォーマット「Apache Iceberg」を使用して、クラウドに保存されたデータの最適化に強み持つスタートアップの米Tabularの買収を発表。
すでに、Databricksではオープンソースストレ―ジレイヤのDelta Lakeを提供しているが、Tabularの買収により広範なユーザーが使うApache Icebergに対応。ゴディシ氏は「ユーザーが“このテーブルは、このフォーマットだと使えない”という状況を生み出したくなかった。フォーマットにかかわらず、すべて同じように標準的に使えるようにしたいと考えたから買収しました。Delta LakeとApache Icebergを融合することで、標準化が可能になります」と説明した。
6月中に一般提供を開始する「UniForm」でもIcebergリーダークライアントでDeltaテーブルを読み取ることができるが、今回の買収により今後はさらに融合を進め、Delta LakeとIcebergのテーブルの違いがないようにしていくという。
また、データのセキュリティとガバナンスの支援に向けて「Unity Catalog」のOSS(オープンソースソフトウェア)化をアナウンスした。Unity Catalogは、データとAIのための統合ガバナンスレイヤーを提供し、Databricksのデータインテリジェンスプラットフォーム内で、構造化データ、非構造化データ、MLモデル、ノートブック、ダッシュボードなどのさまざまなデータやデータアセットをシームレスに管理。
Unity Catalogを利用することで、データサイエンティスト、アナリスト、エンジニアは信頼性の高いデータとAIアセットをセキュアに検索、アクセス、コラボレーションでき、AIを活用して生産効率を向上させることができるほか、規制コンプライアンスの確保とデータとAIのイニシアチブの加速を同時に実現できるというものだ。
Unity Catalog OSSは、任意のデータ形式とコンピュートエンジンをサポートするユニバーサルなインタフェースを提供しており、Delta Lake、Apache Iceberg、Apache HudiのクライアントをDelta Lake UniFormを介して読み取ることができる。
さらに、Iceberg REST CatalogとHive Metastore(HMS)のインタフェース標準もサポートし、表形式・非表形式のデータ、MLモデル、生成的AIツールなどのAIアセットを横断的にガバナンスできるため、組織は管理の効率化ができるという。
同氏は「相互運用性に加え、統一されたガバナンスを提供でき、オープンであることが特徴。みなさんがデータを所有し、コミュニティの人たちがアクセスできるデータを使い、さまざまなことができます。これによりコミュニティも広がります」と説く。
コンパウンドAIシステムに対応したMosaic AIの新機能
そして、同社が掲げるData Intelligence Platformの実現に向けて、昨年13億ドルで買収したMosaicMLの技術をベースとした、プラットフォーム上にAI機能を構築・展開する「Mosaic AI」の強化が発表された。ゴディシ氏は「レイクハウスに生成AIを組み合わせます。これによりカスタムAIをトレーニングできるようになりました。生成AIのモデルを自社のデータを使いながらトレーニングでき、データとAIの民主化を進められる」と胸を張った。
組織ではプライバシーや品質、コストの懸念から生成AIプロジェクトをパイロットから本格的なプロダクションへの移行を躊躇することから、コンパウンドAIシステム(複合AIシステム)を展開しているという。
同システムは、さまざまなモデルや検索、ベクトルデータベース、評価、モニタリング、セキュリティ、ガバナンスのためのツールなど、複数のコンポーネントを使用することが特徴。結果としてコンパウンドAIシステムは品質が高く、組織は正確・安全にガバナンスされたAIアプリケーションを効率的に提供できるという。
内容としては「Mosaic AI Agent Framework」「Mosaic AI Agent Evaluation」「Mosaic AI Tools Catalog」「Mosaic AI Model Training」「Mosaic AI Gateway」などとなる。
Mosaic AI Agent Frameworkは、開発者が基盤モデルとエンタープライズデータを使用して高品質のRAG(Retrieval Augmented Generation:検索拡張生成)アプリケーションを迅速・安全に構築できるほか、Mosaic AI Agent Evaluationは出力が高品質か否かを自動的に判断し、利害関係者からフィードバックを得る直感的なUIを提供するAI支援の評価ツール。ゴディシ氏は「これらの機能を組み合わせることで、組織は本番用の生成AIソリューションを展開できる」と自信を滲ませた。
Mosaic AI Tools Catalogは、Databricks Unity Catalogを使用してツールを管理、共有、登録するためのシステム。AIシステムの評価やAIアプリケーションに使用するための一般的な機能のエンタープライズレジストリを作成するためにも使用され、組織全体でAIツールを共有できるようになる。
Mosaic AI Model Trainingは、組織のプライベートデータを使用してオープンソースの基盤モデルを微調整し、ドメインやタスクに特有の新しい知識を提供。微調整されたモデルは、ユーザーが所有・制御しており、組織のプライベートデータで専門的なタスク用にトレーニングされているため、特定のユースケースで高い結果を生成するとのこと。
現在、Mosaic AI Agent Framework、Mosaic AI Agent Evaluation、Mosaic AI Model Training、Mosaic AI Gatewayはパブリックプレビュー、Mosaic AI Tools Catalogはプライベートプレビュー中となっている。
なお、同社では7月からMosaic AIはもちろんのこと、ノートブックやDatabricks SQLといった製品・サービスすべてが100%サーバレスになることも明らかにしている。
NVIDIAとのパートナーシップを強化
一方、NVIDIAとのパートナーシップの強化を発表し、生成AI時代に向けたエンタープライズデータの高速化を目指す取り組みを行う。ゴディシ氏の紹介でNVIDIA Founder and CEOのJensen Huang(ジェンスン・フアン)氏が登壇した。
Databricksのプラットフォーム上でNVIDIA GPUアクセラレーションをネイティブなサポートとして追加。Databricksの次世代クエリエンジン「Photon」により、NVIDIAアクセラレーテッドコンピューティングのネイティブサポートを開発し、ユーザーのデータウェアハウジングと分析ワークロードの速度・効率の向上を図る。
また、DatabricksのLLM「DBRX」がNVIDIAの生成AIアプリケーションの開発向けマイクロサービス「NIM」で利用が可能となった。NIMは最適化されたモデルを事前構築済みのコンテナとして提供し、開発者の生産性を向上させるため簡単で標準化された方法で生成AIモデルをアプリケーションに追加できる。
フアン氏は「Databricksとの協業強化により、AIのデータ処理とコアなデータ処理を同時に実現できます。膨大なデータを迅速に処理できるようになったことから、コストや時間の制約から実現が難しかった大規模モデルのトレーニングができるなど、可能性が広がっています。Databricksではデータ処理からデータガバナンス、そして格納してインテリジェンスからデータを抽出することができます。これは素晴らしいことであり、モデルのトレーニングはデータのフォーマットや質などを準備しなければならないが、非常に簡単にできると感じています」と期待を口にしていた。