先日、年次カンファレンス「Data + AI Summit 2024」を米サンフランシスコで開催したDatabricks(データブリックス)。その中で、分析・インサイトを企業内の誰でも利用できるようにすることを目的に、新しいタイプのBI(ビジネスインテリジェンス)製品「Databricks AI/BI」を発表した。本稿では、同製品の説明を行った米Databricks Sr. Director, Product ManagementのKen Wong氏の話を紹介する。

  • 「Data + AI Summit 2024」で新しいタイプのBI製品「Databricks AI/BI」がアナウンスされた

    「Data + AI Summit 2024」で新しいタイプのBI製品「Databricks AI/BI」がアナウンスされた

既存のBIツールが抱える問題

登壇するなり、Wong氏は「ダッシュボードとBIレポーティングの根本的な問題は、さまざまな質問を行い、答えを出すために多くのものを構築しなければならず、結果としてゴチャゴチャしてしまい、視認性が良くありません。ここ数年、AIを用いてこうした課題を解決していこうという流れがあります」との認識を示す。

  • 米Databricks Sr. Director, Product ManagementのKen Wong氏

    米Databricks Sr. Director, Product ManagementのKen Wong氏

同氏が指摘するように、昨今のBIツールはレポートやダッシュボードを通じてデータへの基本的なアクセスを可能にはするが、あらかじめ回答がプログラムされた特定の質問にしか対応ができない場合がある。

しかし、実際のデータやビジネスにおける状況の変化は常にユーザー側に新たな疑問を呼び起こすため、これを理解するためにデータサイエンティスト・アナリストの専門知識が必要になっている。

こうした問題を解決することを目的に、近年のBI業界は生成AIに着目し、従来のBIスタックにLLM(大規模言語モデル)を追加しているが、こうした試みは大半が失敗に終わっているとの見立てだ。

Wong氏は「AIアシスタントがSQLをコーディングすることは素晴らしいです。そのため、現在は既存システムに追加機能を組み込む『ボルトオンAI』により、自然言語で質問すれば回答が返ってくることがIT業界でもトレンドになっています。ダッシュボードを備え、必要なデータが入り、データサイエンティストはいらないと謳っていますが、本当にそうなんでしょうか?」と疑問を呈した。

汎用的なLLMをBIツールに組み込むだけでは十分ではない

既存のBIにLLMを組み込むだけのボルトオンAIのソリューションは、説得力のあるデモの提供は可能であっても、質問への正確な回答やデータでは機能しない場合が多くあるとも同氏は話す。

そこで、Databricksでは既存のBIツールを用いて独自の検証を行った。例えば「売り上げのパイプラインはどうなっているのか?」とシンプルな質問したところ、使えないものが多く提示されたほか、別のツールではパイプラインがゼロと回答されたという。

Wong氏は「当社が定義するパイプラインの意味を理解できなかったのです。試したBIツールは素晴らしいものです。しかし、実際にはユーザーの意図や目的を検索エンジンが理解して、適した検索結果を表示させるためのセマンティックモデルを生成していく必要があるのです」と話す。

つまり、汎用的なLLMを組み込むだけでは十分ではないということだ。汎用的なものは各社固有のユニークなデータを理解できず、複雑なデータも理解できないという。

また、企業における特有の文脈も理解できないことから、解決するためにはセマンティックレイヤをモデルに組み込む必要があると、同氏は強調している。

「Databricks AI/BI」のカギを握るコンパウンドAIシステム

実際、各企業においてはさまざまなデータや、異なる意味・ニュアンスを持つビジネス特有の質問に溢れているため、自然言語の質問をあらかじめLLMに渡し、回答プランを生成して問題を解決しようとするアプローチには、根本的に限界があるとのことだ。

Wong氏は「こうした課題を解消できるものとして提供するものがAI/BIです。データとアナリティクスの民主化に向けた最初のステップとなる製品です」と胸を張る。

AI/BIは、高速でインタラクティブなダッシュボードを作成・配布するためのAIを搭載したローコードインタフェース「Dashboards」と、自然言語を通じてある事柄に関するその場限りの質問やフォローアップの質問に対応する会話型インタフェース「Genie」の、2つの補完的なインタフェースを提供。

両インタフェースともに、ETL(Extract:抽出、Transform:変換・加工、Load:格納)パイプライン、リネージ、そのほかのクエリを含む、企業・組織のデータスタック全体の使用状況から継続的に学習する複合AIシステムで動く。

従来のツールに付随する初期設定やモデリングを必要とすることなく、複雑な質問に正確かつ自動的に回答することができるという。

そして、汎用的なLLMを組み込むのではなく、AI/BIの中核にはさまざまなAIエージェントを用いてビジネス特有の質問について推論し、回答を生成する「コンパウンドAI(複合AI)システム」を活用。コンパウンドAIシステム内の各AIエージェントがプランニング、SQL生成、説明、視覚化、結果認証など、狭いながらも重要なタスクを担当する。

  • 「コンパウンドAI(複合AI)システム」の概要

    「コンパウンドAI(複合AI)システム」の概要

ここで言及したコンパウンドAIシステムは、基調講演で米Databricks Co-founder and CEO(共同創業者兼最高執行責任者)のAli Ghodsi(アリ・ゴディシ)氏が説明したものだ。

さまざまなモデルや検索、ベクトルデータベース、評価、モニタリング、セキュリティ、ガバナンスのためのツールなど、複数のコンポーネントを使用することが特徴となっている。

結果として、組織は正確・安全にガバナンスされたAIアプリケーションを効率的に提供することを可能としている。回答ランキングサブシステムやベクトルインデックスなどの他要素もサポートされており、これらを組み合わせることで単一のAIモデルを超える推論力を提供することができるという。

継続的に学習し、人間からのフィードバックに基づいてパフォーマンスを改善

AI/BIのシステムは継続的に学習し、人間からのフィードバックに基づいてパフォーマンスを改善するように設計されている。

例えば、解約顧客の定義を告げられると、学習した知識を用いて類似のクエリ(欧州・中東・アフリカ地域とアジア太平洋・日本地域における解約顧客など)に対処するだけでなく、その知識をもとに解約率を計算したり、既存顧客の意味を推測したりすることが可能。

人間のアナリストと同じく、1回の分析や会話後も知識を持続・改善するほか、ETLパイプライン、リネージ、人気統計、データに対する他のクエリなど、プラットフォーム内の企業・組織のデータに関する他の情報からも学習することができるという。

2つのインタフェースのうち、Dashboardsは特定のビジネス関連の質問に回答するなど、ユーザーが期待する従来のBI機能をすぐに利用できる、AIを搭載したローコードのダッシュボードソリューションとなる。

Dashboardsについて、Wong氏は「BIの基本的な機能はカバーしています。ノーコードでのドラッグ&ドロップ、スケジューリング、エクスポート、アニメーションによるクロスフィルタリングも可能です」と説く。

  • Dashboardsのイメージ

    Dashboardsのイメージ

一方、Genieは人間のフィードバックにもとづいて基礎データと意味を継続的に学習し、高い推論力をベースに、広範なビジネス質問に回答できる会話型インタフェースとなっている。

  • Genieのイメージ

    Genieのイメージ

Wong氏は「Genieは会話形式で言語を理解し、回答してくれます。このインタフェースが特別である理由はコンパウンドAIシステムを用いて、企業特有の文脈を理解して学び続け、さまざまなAIエージェントを理解し、回答してくれる点にあります。関連するノートブックなどを見ながら企業固有のロジックを理解します」と説明する。

  • GenieはコンパウンドAIを用いてるからこそ特別だという

    GenieはコンパウンドAIを用いてるからこそ特別だという

DashboardsはGA、Genieはパブリックプレビュー版で提供

AI/BIは同社のデータインテリジェンスプラットフォーム上に構築し、構造化データ、非構造化データ、ML(機械学習)モデル、ノートブック、ダッシュボードなど、さまざまなデータやデータアセットをシームレスに管理する「Unity Catalog」に統合され、同じガバナンスフレームワークにもとづくため、管理者が設定したグローバルポリシーは、すべて適用される。

Unity Catalogのリネージ機能により、データ作成者や管理者はデータがAI/BIでどのように使用されているかを確認することができ、エンドユーザーはデータセットの出自を最初に取り込まれた時点まで遡ることができるため、信頼性の高い分析を行うことが可能だ。

加えて、データブリックスのIAM(Identity and Access Managemen)プラットフォームに組み込まれているため、Entra ADやOktaなどのIdP(Identify Provider)と直接統合されているため安全なデータ共有ができることから、すぐに利用が開始できるというメリットも備える。

DWH(データウェアハウス)「Databricks SQL」および、Databricksの次世代クエリエンジン「Photon」とも統合されており、独自の最適化で高性能なインタラクションを実現し、MB(メガバイト)、PB(ペタバイト)までのデータ量に対して、費用対効果を実現するとしている。

そのほか、対象となるデータセットを別のBIエンジンに抽出する必要がないため、データ鮮度の向上およびガバナンスの簡素化を実現したという。

  • AI/BIはリアルデータのインテリジェント分析を訴求している

    AI/BIはリアルデータのインテリジェント分析を訴求している

なお、AI/BIは新たなライセンスを必要とせず、すでにDWH(データウェアハウス)「Databricks SQL Pro」と、サーバーレスDWH「Databricks SQL Serverless」のすべてのユーザーで利用でき、Dashboardsは一般提供(GA)が開始されており、Genieはパブリックプレビュー版を提供している。

Wong氏は「われわれの目標は可能な限り多くの方が利用し、AI/BIを取り込んでもらいたいと考えています。また、OpenAI APIに可能性を感じています。なぜなら、当社がAI/BIのために行ったすべての作業をAPIを通じて開放することで、誰もがデータとAIの民主化ができるようにパートナーとして支援するとともに、オープンなエコシステムを構築できると信じているからです」と述べ、壇上を後にした。