米Databricks(データブリックス)は、6月15日~18日の期間でカリフォルニア州サンフランシスコのMoscone Center(モスコーニセンター)で年次カンファレンス「Data + AI Summit 2026」を開催。期間中における現地への来場者数は3万人以上、オンラインを含めると約10万人と年々規模が拡大しており、近年ではヘクトコーンとして国内外で注目度が高い企業だ。本稿では、初日のキーノートにおけるCEOのAli Ghodsi(アリ・ゴディシ)氏のプレゼンテーションを中心としたキーノートで語られた内容を紹介する。
オープンソースに深くコミットするDatabricks
オーディエンスからの拍手で迎えられたゴディシ氏は、今回のカンファレンスの規模に触れながら「世界174カ国からの参加を集め、名実ともに世界最大のデータとAIのイベントになりました」と喜びを語った。
もともと、同カンファレンスはDatabricksが創業した2013年に「Spark Summit」としてスタート。同社はカルフォルニア大学バークレー校(UCバークレー)でゴディシ氏をはじめ、データとAIを研究するOSSの分散処理フレームワーク「Apache Spark」のクリエイター20人で創業した。
Apache Sparkを中核に、既存のデータレイクファイルストレージ上に設置されるオープンテーブルフォーマットの「Delta Lake」、データガバナンスの統合データカタログ「Unity Catalog」、機械学習ライフサイクル管理の「MLflow」といったオープンソースを生み出し、それを基盤に発展してきたというわけだ。
オープンソースのRDBMS(リレーショナルデータベース管理システム)「PostgreSQL」にも深くコミットしており、将来のデータベースの方向性として重視していると明かした。加えて、Databricks 共同創業者兼CTOのMatei Zaharia(マテイ・ザハリア)氏を中心に取り組む、メタハーネス(合成、コントロール、コラボレーションを行うレイヤ)のプロジェクト「Omnigent」を6月にオープンソース化している。
企業におけるAI活用に伴う課題解消に向けた4つのポイント
そして、ゴディシ氏は唐突に「ここで質問です。AGI(汎用人工知能)はすでに実現しているのでしょうか?」と問いかけた。オーディエンスの大半は未達と考えていたが、同氏は「AGIはすでに到達しています」と主張した。
現在のAGIは難解な数学問題すら解く能力を持っているという。しかし、同氏は「企業データにアクセスできない、コンテキスト(文脈)がない、ガバナンスがない、コスト制御もできないと、そのままでは業務に使えません」と断言する。
また、同氏が2009年に在籍していたビッグデータと機械学習の研究機関である、当時のUCバークレーのAMPLabによるAGIの定義に照らすと、現在の技術はすでにそれをはるかに超えているとの見立てだ。しかし、問題はAIの知能(インテリジェンス)ではなく、その活用のあり方だと指摘。
近年、企業のAI活用はチャットボットやコード生成など、限定的な利用にとどまっており、AIエージェントが自律的に協働し、業務を遂行する環境には至っていないのが現実となっている。
問題はインテリジェンスの不足ではなく、組織全体への浸透不足であり、エンタープライズAIの鍵は「コンテキスト(文脈)の精度」「セキュリティ/統制」「持続可能なコスト」「ロックインの回避」の4つがポイントになるとしている。
ゴディシ氏は「AIの性能は十分高いが、企業内データや業務文脈を適切に統合できていないため、実用化が進んでいません」と話す。特にエージェントが自律的に動く環境では、セキュリティポリシーの順守、監査性の確保、意図しない動作防止も不可欠だという。
また、無制御な処理はクラウドコストの増大を招き、予算を短期間で消化する事例も出ており、コスト管理は事業継続の前提条件との姿勢を示す。さらに、多くの企業は長年のシステム蓄積により複雑なITスタックを抱え、特定ベンダーやAIモデルへの依存は将来の柔軟性を損なう可能性もある。
こうした状況をふまえ、同氏は「データ、コンテキスト、AIのすべてにおいて選択の自由を維持する必要があります」と力を込める。
エンタープライズAIを支えるオープンレイクハウス戦略
こうした課題に対し、同社は「オープンレイクハウス」を中核とするアーキテクチャで解決を図るという。これらの戦略を支えるものとして、データの取り込み、ETL(抽出、変換、格納)、ワークフローのオーケストレーションを担う「Lakeflow」は100以上のコネクタで企業内のデータを統合する。
さらに「Zero-DBUS」はKafkaのようなメッセージ基盤を不要とし、「Spark Real-time Mode」はミリ秒単位の処理を可能としている。また「Lakeflow Designer」はAI支援でデータ処理を視覚的に設計しつつ、背後ではSparkコードとして管理できるという。
加えて、オープンテーブルフォーマットのDelta Lakeに加え「Apache Iceberg」の両方を選択可能とすることで、特定フォーマットへの依存を回避する点を挙げている。これらを通じ、Databricksはオープン性、コスト制御、選択の自由を軸に、エンタープライズAIの実運用を支える基盤を提供できると強調していた。
Unity AI Gateway、Genie One、LTAPでAI業務の自動化と統合
ここからは、オープンレイクハウス戦略をさらに強化していくため、当日に発表された数多くの新サービスの中でも主要なものを紹介していく。
まずは、統制・ガバナンス層の「Unity AI Gateway」からだ。これは、企業内で利用されるAIやエージェントを一元的に管理するための統合基盤。複数のAIモデルやツールへのアクセスを単一の入口で制御し、利用状況やコストを可視化できるほか、予算設定やレート制限などの統制も可能としている。さらに、セキュリティや監査、ID管理も統合され、AI活用におけるガバナンスを確保しつつ、特定のモデルに依存しない柔軟な運用を実現する。
次に、目玉として位置付けられていたのがコンテキスト層の「Genie One」。同サービスは企業の業務を自動化・高度化するAI同僚(コワーカー)としてマーケティング、営業、財務などの部門が自社データにもとづき、質問・分析・実行までを一体化できるエージェント型AIとなる。
特徴は「Genie Ontology」と呼ばれる新しいコンテキスト基盤で、社内のデータ、文書、アプリ、チャット、会議情報などを横断的に統合し、企業全体の知識を継続的に学習する。これにより、AIは断片的な情報から推測するのではなく、正確な事実にもとづいて回答やアクションを実行でき、高精度・低遅延・低コスト化を実現するとしている。
さらに「Genie Agents」は会話内容を再利用可能なエージェントとして保存するほか、「Genie App Builder」で業務アプリを簡単に構築できる。Unity Catalogによる統制も維持され、従来のAIが苦手としてきた“企業文脈の理解不足”を根本的に解決し、業務全体を自律的に支援するとのことだ。
続いては、データ基盤の再設計を可能にする、新たなデータ基盤アーキテクチャ「LTAP(Lake Transactional/Analytical Processing)」だ。同社はトランザクショナルデータベースとしてLakebaseがあるが、LTAPは従来分断されてきたトランザクション処理(OLTP)と分析処理(OLAP)を、単一のデータコピー上で統合するアーキテクチャだ。
従来は業務系データベース(DB)と分析系DWH(データウェアハウス)が分離され、ETLやレプリカを介してデータ連携する必要があったが、LTAPはレイク上の単一ストレージに統合することで、データ移動や複製を不要にする。
基盤となるトランザクションデータベース「Lakebase」はオープンストレージ上のサーバレス型のPostgreSQLで、運用データ・分析データ・ストリーミングを一元管理できる。これにより、企業はリアルタイムにデータを参照・分析・実行でき、AIエージェントによる即時判断にも対応が可能。ETL廃止によるコスト削減や、ガバナンス一元化も利点であり、40年以上続いたOLTP/OLAP分断を解消し、“AI時代のデータ基盤”を再設計する試みとして位置付けている。
リアルタイム分析とマーケティングまで拡張するAI基盤
リアルタイム分析をレイクハウス上で直接実行できる新機能「Lakehouse//RT」は、新しい実行エンジン「Reyden」を備える。最短でミリ秒単位のクエリ応答と、数万規模の同時接続を実現するリアルタイム分析基盤となる。
特徴として、Delta LakeやApache Icebergといった既存のテーブルに対して、データをコピーせず直接クエリを実行できる。リアルタイム分析のために、従来のように別のサービング層を構築する必要がなく、CDC(Change Data Capture)・同期パイプラインも不要となる。その結果、データの複製によるコスト増やガバナンス分断、ベンダーロックインといった課題を解消できるという。
さらに、Unity Catalogのガバナンスをそのまま適用できるため、アクセス制御や監査も一元化される。実際の性能は既存のリアルタイム基盤と比べ最大16倍向上し、大規模データでも100ミリ秒以下の応答を実現。AIエージェントやアプリケーションが常時データを読み取り、分析し、即時に行動するための基盤として設計されているとのこと。
最後は、マーケティング領域に参入し、業務アプリケーションとしてのエージェント型CDP(顧客データ基盤)「CustomerLake」に関して。顧客データ、AIモデル、エージェント、ID解決、セグメント作成、キャンペーン実行を単一のレイクハウス上に統合するもの。
特徴は従来の単発キャンペーンを廃して、永続的なキャンペーンと呼ぶ常時稼働型のマーケティングを実現するという。AIエージェントが顧客行動を継続的に分析し、最適な施策を自動判断・実行することで、1対1のパーソナライズ体験をリアルタイムで大規模に提供できるとしている。
従来のCDPはデータと実行基盤が分断されていたが、CustomerLakeはDatabricks内部で完結するため、データ移動やサイロを排除。ガバナンスもUnity Catalogで統一されることから、顧客がエージェントを使って購買判断する時代に対応し、マーケティングそのものを継続的な意思決定ループへと進化させる基盤と位置付けている。
Databricksが描くAI実装フェーズ
一連のゴディシ氏による説明をふまえると、Databricksが今回のキーノートで打ち出したのは、AIの高度化そのものではなく「企業内で使える状態へいかに持っていくか」という視点だ。
Ghodsi氏は「AIはすでに十分に賢い。われわれに必要なのはさらなる知能ではない」と繰り返し語っており、課題はあくまで活用側にあります」と訴える。実際、企業のデータや業務プロセスを取り込むコンテキストの整備は進んでおらず、結果として利用は限定的にとどまっている。AIを実運用へと押し上げるには、統制やコスト管理を含めた基盤設計が不可欠となる。
今回の発表は個別の新機能の紹介にとどまらず、データ基盤、AI、ガバナンスを一体として再設計するという同社の戦略を示すものだった。企業内のあらゆるデータやプロセスをAIが理解し活用できる状態にすることで、エージェントが業務を横断的に支援する「新たなSoR(System of Record)」の実現が視野に入る。Databricksはその基盤をオープンな形で提供することで、AI活用の実装フェーズを加速させようとしている。













