データブリックス・ジャパンは11月14日、都内で「Data + AI World Tour Tokyo」を開催。本稿では基調講演の模様をお伝えする。

「Data Intelligence Platform」でデータ活用の課題を解決

冒頭、米Databricks COO(最高執行責任者)のシャフィーク・ハティム氏は「当社は、すべての企業がデータ&AI企業に変革すべきだと考えています。当社のミッションはデータとAIの民主化を組織内で行うことを、“Data Intelligence Platform”を通じて支援することです。昨今、あらゆる企業でプレッシャーが高まっており、ビジネス変革の指標や価値を実際のユースケースを通じて提供しなければなりません」と述べた。

  • 米Databricks COO(最高執行責任者)のシャフィーク・ハティム氏

    米Databricks COO(最高執行責任者)のシャフィーク・ハティム氏

ハティム氏によると、組織におけるイノベーションの実現に向けて誰もがAIを望んでおり、多くの経営層が生成AIのユースケースや社内で活用していくのかについて議論しているという。

続けて、同氏は「データの信頼性やセキュリティ、プライバシー、ガバナンスなどの懸念に対応しなければなりません。そして、生成AIのモデルやエージェント、アプリケーションなどが本当に質の高いアウトプットを出したり、ビジネス上の重要な意思決定を行えたりできるのかということを確認する必要もあることに加え、データのサイロ化を解消することはAIのイノベーションにとって重要です。当社のData Intelligence Platformはこうした問題に取り組み、簡素化することでイノベーションを加速させます」と力を込める。

次に、データブリックス・ジャパン 代表取締役社長の笹俊文氏が登壇し、まずは日本におけるビジネスの状況を説明した。

同氏は「さまざまな企業でデータとAIの活用を切望していると思います。従来のデータ利活用はDWH(データウェアハウス)やBI(ビジネスインテリジェンス)が主流でした。一方、AIは生成AIの登場により、ベンダーのAIを使うようになり、データとAIが分かれたということも否ません。しかし、いよいよデータとAIをどのように組み合わせるのかというフェーズを迎えています」と話す。

  • データブリックス・ジャパン 代表取締役社長の笹俊文氏

    データブリックス・ジャパン 代表取締役社長の笹俊文氏

Databricksが掲げるデータとAIの民主化には、組織の誰もが使える「環境」、そして「ルール」の2つが必要になるという。ルールについて、同氏は「民主化しようと思ってもルールがないと無法地帯になりかねません。無法地帯になると、データがどんどん複製されてコントロールができず、個人情報が勝手に使われてしまう懸念もあります。これだとAIを活用していくことにブレーキがかかってしまう可能性があります」と警鐘を鳴らす。

データとAIの民主化に向けた3つのポイント

これらを踏まえたうえで、笹氏はデータとAIの民主化に向けて「あらゆる企業がAIを欲している」「セキュリティとプライバシー」「データの断片化」の3つのポイントを挙げている。

企業がAIを欲していることについては、ベンダーやオープンソースのLLM(大規模言語モデル)がさまざまあるが、同社がプロジェクトに携わる中での気づきとして数あるLLMのベンチマークの数値よりも、自社のデータでモデルをトレーニングして成果を得ることの方が重要だという。

笹氏は「当社のグローバルにおけるアンケートでは、生成AIプロジェクトのPoC(概念実証)から本番運用まで行き着く割合は15%です。裏を返せば85%のプロジェクトが本番運用まで至っていません。課題が残ったままAIのプロジェクトを進めており、AIの精度を向上していくことが重要。IT企業のLLMに全面的に頼ると、品質のコントロールは完全に第三者に依存します」と指摘。

セキュリティとプライバシーについては、例えばECで生成AIを活用すると100万人、1000万人に対してパソナライゼーションを個人情報をもとに行うため、プライバシーのコントロールが必要になる。こうした例もあることから、AIに関する規制やデータのプライバシー、サイバー攻撃など規制が世界的に拡大傾向にあり、セキュリティとプライバシーが喫緊の課題だという。

同氏は「データテーブルだけでなく、ダッシュボードやAIモデルもあるほか、構造化・非構造化データを含めて、がバンスを効かせないとデータとAIの世界は乗り切れません」と断言する。

データの断片化については、従来型のDWHは主に文字や数字など構造化データを扱う反面、画像といった非構造化データはデータレイクを利用するため、テクノロジーが両方ともカバーしていないことから、やむを得ず2つに分かれている。

笹氏は「これまでは仕方なく、さまざまなツールを組み合わせながらETL(抽出、変換、書き出し)を行い、それらのデータでBIやAIに取り組んで今氏が、無数にデータが断片化し、組織でのデータ活用が進みません」との認識を示す。

Databricksの強み

こうした状況を打破するために同社が提唱したものがDWHとデータレイクを掛け合わせ、構造化、JSONなどの半構造化、非構造化のデータを単一のプラットフォームで実現するものが「レイクハウスアーキテクチャ」だ。

現在、データ分析基盤を提供する、さまざまなベンダーがレイクハウスアーキテクチャを打ち出しているが、そもそもDatabricksが技術を生み出して端緒を開いたといっても過言ではない。

レイクハウスアーキテクチャにもとづいたフォーマットは、同社が開発した「Delta Lake」と「Apache Iceberg」の2大勢力がある。Databricksは、今年6月にIcebergのクリエイターが設立したTabularの買収を発表している。

Icebergは「Delta Lake UniForm」でカバーする。UniFormはフォーマット間を即座に自動変換するため、ソースデータの単一コピーを保持したまま、任意のIcebergやHudiクライアントを使用してUnity CatalogエンドポイントからDelta Lakeテーブルを読み込むことができるという。

広範なユーザーが利用するIcebergに対応することで、相互運用性を持ちながらあらゆるオープンフォーマットのデータの読み書きが可能なほか、データの重複によるコスト増加を回避できるとのことだ。

  • Databricksでは自社のファイルフォーマットの「Delta Lake」に加え、Tabularの買収で「Apache Iceberg」にも対応可能になった

    Databricksでは自社のファイルフォーマットの「Delta Lake」に加え、Tabularの買収で「Apache Iceberg」にも対応可能になった

そして、UniForm上におけるデータのセキュリティとガバナンスを担保するため「Unity Catalog」を備えている。

これは、データとAIのための統合ガバナンスレイヤーを提供し、Databricksのデータインテリジェンスプラットフォーム内で、構造化データ、非構造化データ、MLモデル、ノートブック、ダッシュボードなどのさまざまなデータやデータアセットをシームレスに管理するというもの。

Unity Catalogについて、笹氏は「従来からのセキュリティのカタログ以外に、データをグループ間でシェアや第三者に提供するなどのコラボレーション、データリネージ、品質の監視、コスト制御といった管理を可能としています」と説明した。

  • 「Unity Catalog」の概要

    「Unity Catalog」の概要

このように、Delta LakeとIcebergの互換性を内包したUniFormをUnity Catalogでガバナンスを制御しながら、AIやSQL、DWH、ライブストリーミングによるリアルタイムデータの取り込み、AI、BIの機能をDatabricksは100%サーバレスで提供し、Data Intelligence Platformを体現している。

  • 「Data Intelligence Platform」の概要

    「Data Intelligence Platform」の概要

また、マルチクラウド環境を前提としているためAWS(Amazon Web Services)、Microsoft Azure、Google Ckoud対応。これにより、ロックインのリスクを最小化し、重要なワークロードのためのDR戦略などに取り組めるほか、同じインタフェースで動かためデータが発生したプラットフォームで加工を可能としている。さらに、データを各プラットフォームに置いたまま仮想的にデータメッシュアーキテクチャにすることもできるという。

  • マルチクラウド環境にも対応している

    マルチクラウド環境にも対応している

一方、性能・コストについては、性能は他社と比較して差はないものの、コストは半分以下に抑えることを可能としている。笹氏は「当社がいかにコンピュートを最適化し、コストパフォーマンスに注力してきたかという証です」と述べていた。