11月28日にデータブリックス・ジャパンが都内で開催したフラッグシップイベント「Data + AI World Tour Tokyo 2025」。本稿では、基調講演で語られた同社の戦略と、三菱UFJ銀行(MUFG)における導入事例を紹介する。
Databricksが掲げるデータとAIの民主化戦略
Databricksは、カルフォルニア州立大学バークレー校において、CEO兼共同設立者のアリ・ゴディシ(Ali Ghodsi)氏をはじめ、データとAIなどを研究するOSSの分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。創業後も順調に成長を続け、直近の時価総額は1300億ドル(日本円換算で約20兆円)とユニコーン、デカコーンを超え、現在では“ヘクトコーン”企業となっている。日本法人は2019年に設立された。
まず、壇上に登ったのは米Databricks COO(最高執行責任者)のシャフィーク・ハティム氏だ。同氏は「われわれは以前から“すべての企業がデータとAIの企業に変革する”と唱えていました。そして、当社の使命は“データとAIの民主化”です。この取り組みは、当社自身の成長にも直結しています。現在、Databricksは世界で最も急成長するエンタープライズソフトウェア企業の1つとなり、グローバルの従業員数は8000人を超えています」と述べた。
同社はデータレイクとデータウェアハウス(DWH)のメリットを組み合わせた、データ管理アーキテクチャ「Lakehouse(レイクハウス)」のパイオニアだ。
Apache Sparkに加え、既存のデータレイクファイルストレージ上に設置されるオープンソースストレージレイヤ「Delta Lake」、データガバナンスの統合データカタログ「Unity Catalog」、機械学習のモデル開発から運用までのライフサイクルを管理するための「MLflow」など数々のオープンソースを生み出してきた。
同氏は「なぜオープンソースが重要なのか。それはデータが専用のソフトウェアに閉じ込められる時代は終わり、データは企業の知的財産、そしてAIはオープンフォーマットと統合されたガバナンスの上で動くべきだからです。われわれは、これまでにOpenAIやMeta、Anthropic、Googleと提携しています。最先端のモデルを当社のプラットフォーム『Data Intelligence Platform』上で活用できますし、SAPとも戦略的な提携をしています」と話す。
ハティム氏によると、直近の1~2年間は生成AIの登場により、企業に大きなプレッシャーを与え、経営層は生成AIのユースケースをどのように活用するかを議論しているものの、課題も多いという。
同氏は「セキュリティやガバナンス、データプライバシー、複雑性のほか、企業はAIエージェントに意思決定を委ねることへの不安を抱えています。また、データはサイロ化し、ツール群が連携していません。イノベーションを実現するには、データのモダナイゼーションが不可欠です」と力を込める。
新機能とパートナーエコシステムの強化
そのため、Databricksでは企業におけるデータとAIの活用を支援すべく、今年6月に開催した年次イベント「DATA + AI SUMMIT」において、コストと品質を自動最適化しながら本番レベルのAIエージェントを構築できる新製品・新機能を多数発表している。
ストレージとコンピューティングが分離した、PostgreSQL互換のフルマネージドなOLTP(オンライントランザクション処理)データベース「Lakebase」を発表したほか、LakehouseやUnity Catalogプラットフォームを機能強化し、セキュアかつコンプライアンス対応を可能とする環境でアプリケーションやエージェントを提供できるようにしている。
また、パートナーエコシステムも強化しており、5800社以上のパートナーとともにデータへのアクセス、シンプルなコラボレーション、業界特化型のユースケースの提供を可能としている。現在、同社の売り上げは前年比50%以上となっており、顧客数は2万社にのぼる。
一方、APJ(アジア太平洋・日本)地域では、日本も含めて8拠点に1000人以上の従業員を擁し、パートナーエコシステムは1000社以上となっている。
データとAIの民主化をAPJでも加速するために、6月にデータ・AI分野の人材不足解消を目指し、1億ドルを投じるグローバルな教育プログラムを発表している。これは、無料版の「Databricks Free Edition」などを提供するもので、すでにAPJだけで1万8000人以上がトレーニングに参加している。
ハティム氏は「エンドツーエンドでスケーラブル、セキュア、オープンなプラットフォームを求めるなら、Databricksが最適です。当社はデータとAIの旅を支援する準備が整っています」と胸を張っていた。
データコントロールの重要性
続いて、データブリックス・ジャパン 代表取締役社長の笹俊文氏が登壇。同氏は「まずデータとAIに取り組むうえで、最初に必要になるものはデータをコントロールすることです。これができないとデータのインテリジェンス化のみならず、AIの活用も難しくなります」と指摘。
データをコントロールする際に、組織における大きな課題としてデータがサイロ化し、あらゆるところに同じデータがコピーされているほか、構造化、半構造化、非構造化データなど、多様なデータがある中ではデータレイクとDWHに分かれてしまい、コストがかさむ。また、それぞれのプラットフォーム格納されていることから、プラットフォームに依存したロックインが発生して、データを取り出すことが困難になっている。
そのため、ロックインから解放して、あらゆるデータを統合するオープンテーブルフォーマットが重要になるという。オープンテーブルフォーマットの市場はDatabricksのDelta Lakeと「Apache Iceberg」があり、同社では昨年6月にIcebergのクリエイターが設立したTabularを買収し、両方のコントリビュートに貢献。
笹氏は「どちらのフォーマットもDatabricksがメジャーコントリビュータとして開発に携わっており、構造化、半構造化、非構造化データを格納できます。また、データをプラットフォームベンダーに渡すことなく、自社のクラウド上で利用しているデータストレージ領域に格納しながら、DWHやデータサイエンス、機械学習などに利活用できます」と説明する。
「Data Intelligence Platform」で実現するデータ&AIの民主化
しかし、多くのビジネスのデータを扱う上で問題になるのがガバナンスだ。データとAIの世界になると、従来型のデータガバナンスだけでは不足しているという。というのも、従来からの資産だけでなく、AIモデルやファイルオブジェクト、Notebook、ダッシュボードといった資産をいかに統合的に管理しながら、多様なユースケースに対応するかが問われている。また、データへの容易なアクセス制御も必要となる。
さらに、AIモデルを継続的にトレーニングしなければ陳腐化するため、常にチューニングが必要になる。また、データの履歴を調べるためのデータリネージ、またエージェンティックAIによるデータの探索も不可欠だという。こうした状況を統合管理するものがUnity Catalogだ。
同製品はアクセス制御、データの探索・発見、データリネージ、コスト制御、監査、セキュアかつオープンなデータ共有、ビジネスセマンティクス、品質をはじめ、あらゆるユースケースに対応する統合機能、あらゆる資産に対する統合的アプローチを可能にする。加えて、ゼロコピーでデータを共有するオープンプロトコル「Delta Sharing」は、オープンソースAPIを介してゼロコピーでデータをUnity Catalogに取り込める。
このように、データとAIを組織で活用していくうえでの障壁を取り払い、ビジネス価値を向上できる機能を備えたものがData Intelligence Platformというわけだ。
そのほか、AIエージェント構築のための統合ワークスペース「Agent Bricks」やサーバレスDWHの「Databricks SQL」、BI(ビジネスインテリジェンス)ツール「AI/BI」などを内包。これにより、エージェントサービングやベクトル検索、モデルのファインチューニング・評価、ガバナンス、ガードレール、LLM(大規模言語)判定、リネージ、MLOps/LLMOpsなどを可能としている。
笹氏は「さまざまなデータを利活用する幅がData Intelligence Platformで広がります。AIに関する機能が盛り込まれているため、やりたいことを多様な視点・機能で支援することができます」と強調した。
ビジネス変革を牽引する領域として同社は「エージェント本番適用の簡素化」「インテリジェントなアプリケーションの準備」「データインテリジェンスの実装」の3つを挙げている。エージェント本番適用の簡素化にはAgent Bricks、インテリジェントなアプリケーションの準備ではLakebase、データインテリジェンスの実装はAI/BIでそれぞれ支援していく考えだ。
MUFGにおけるDatabricks導入事例
次に、三菱UFJ銀行 上席調査役の山内俊志氏が同社におけるDatabricksの導入事例を解説した。同氏は「当行はAI領域において国内の金融機関トップランナーを目指し、AIネイティブな組織への変革、データ利活用、基盤強化に注力し、60の高度なユースケースの推進やAI活用推進に向けた全社運動を行っています」と話す。
同行における初代の分析基盤は2017年に構築し、最低限の機能のみで各所に分析基盤が点在し、サイロ化していたという。そのため、2019年にAWS(Amazon Web Services)上にデータレイクを構築し、データ利活用の土台とした。2023年には、いち早く生成AIを活用すべく、銀行版ChatGPTを導入している。
データ基盤の整備を進める中で、生成AIと従来の機械学習どちらにも対応できる全行AI分析基盤が必要となっていた。そこでデータの価値を最大化するために「分析基盤」「生成AI活用」「組織・体制」の見直しに取り組んだ。
分析基盤について旧環境は、スクラッチで構築していたことから、AIデータ分析のネックになっていたほか、金融機関に求められる高いセキュリティとガバナンスが必要となっていた。また、生成AIの活用ではAIによるデータ価値の最大化が競争優位の決め手であり、それらを支える基盤の整備が急務となっていた。
同氏は「このような挑戦を乗り越えるために、共通のAI分析基盤としてDatabricksを導入しました。この決断の背景には、いま全社でデータとAIをシームレスに活用できる基盤を築かなければ将来の競争力を失う、そういった強い危機感をもとに導入しました。今年2月のリリース後から8カ月運用し、35の部署で60以上のプロジェクト行っています」と導入の背景と、現状を語る。
加えて、組織・体制も年間60超の高度なAIデータ分析の需要に対応するため、ビジネス部門と連携するデータサイエンス専門人材を有するCoE(Center of Excellence)を組織横断で設けた。
CoEはビジネス力、データサイエンス力、エンジニアリング力をバランスよく具備し、上流のビジネス要件整理からモデル開発、運用まで一貫してユーザーに伴走するAIデータ分析の体制とした。ビジネス部門も強くコミットすることで単なるPoC(概念実証)にとどまらず、業務に価値をもたらすことを意識。現在では、CoEに80人のデータサイエンティストが在籍している。
CoEについて同氏は「累計PoC数(2025年10月末時点)は140件以上、実際に業務での活用に至っているものは50件以上(同)となり、成果に結びつけています。CoEや文化醸成がPoC後の業務での活用に至った最大の要因だと考えています」と手応えを口にする。
DatabrickでMUFGが得た効果
山内氏は、Databricksの導入効果について「すさまじいものでした」と衝撃を受けたようだ。MUFGではDatabricks上で、あらゆる分析がワンストップで完結し、モデルの開発から運用まで対応できるようになったという。
結果として、データサイエンティストの生産性が45%向上し、分析環境のコストが60%減、ETL処理時間は55%減、環境払い出し作業工数は90%減となったほか、分析環境のスペック変更は従来10日かかっていたが、即時変更が可能になっている。
同氏は「もちろん目に見える数字は重要ですが、結果としてデータサイエンティストが本来の価値創出に時間が使えるようになったことは最大の効果だと思います。これからも生成AIの活用でさらに生産性を向上していきますが、生成AIが広げる可能性を確かな価値に変える人間の役割は引き続き重要です」と述べている。
今後、MUFGではAIがあらゆる業務に組み込まれ、人とAIが協働して本質的な価値を生み出す世界を目指しているという。
こうした世界を実現するために山内氏は「まずはAIエージェント基盤を整備するにあたり、Agent BricksをはじめとしたAIエージェントの関連機能を積極的に活用していきたい。その先に、MUFGのデータを価値に変えてAIエージェントが真価を発揮できるAI Readyな基盤に成長させ、最終的にはあらゆる業務がAIを前提に最適化された世界で、それを支えるプラットフォームに進化させていければと考えています」と述べ、講演を結んだ。







