データブリックス・ジャパンは9月14日、都内で「Data + AI World Tour Tokyo」を開催した。本稿では、同社 代表取締役社長である笹俊文氏の基調講演とソフトバンクの導入事例を紹介する。
これからの時代の勝者はData Foward企業
冒頭に、笹氏は昨年末から驚異的なスピードでユーザーを獲得したOpenAIの「ChatGPT」を引き合いに出し、以下のような見解を示した。
「本格的なAIの時代に突入した。第四次産業革命とも位置付けられており、AIだけでなく、データと一対で技術革命を起こすと想定されている。データとAIをどのように利用しながら革命を起こしていくかということが重要。データとAIをフル活用するポテンシャルは無限大であり、取引などの自社データ、需要予測といった予測型AI、LLM(大規模言語モデル)をはじめとした生成型AIがあり、自社データとAIを組み合わせて使う時代になりつつある」(笹氏)
ただ、サードパーティ製のLLMを活用する際には、知的財産や著作権、ハルシネーション(幻覚)、社内の専門用語、個人情報などを考慮する必要があるという。そのため、同氏は「これからの時代の勝者は、自社独自のデータ+AI基盤を構築・運用するData Forward企業だ。データブリックスではData Foward企業になってもらうべく、プラットフォームでデータとAIを実装していく世界を作っていきたいと考えている」と力を込めてた。
同氏が言及したData Foward企業とは、これまでBI(ビジネスインテリジェンス)が担っていたデータ加工やレポート、非定型クエリ、データ探索などに加え、そこから何が起きそうか(予測モデル)、何を対処すれば良いか(処方的アナリティクス)、最適な意思決定(意思決定の自動化)などをAIを用いて将来予測を実現する企業を指している。
“スマホライク”な次世代データ基盤「レイクハウスプラットフォーム」
笹氏は「ここまで行き着くには簡単なことではない。これまではBIにより、構造化データを用いれば過去のデータは把握できたが、将来の予測を試みる際は外部データの取り込みや画像・映像などが必要になる」との認識だ。
同氏によると、自社における過去・未来のデータ、外部データなどを取り込む場合、データレイクやDWH(データウェアハウス)、BI、ガバナンスに加え、高度な予測を行うデータサイエンス、ML(機械学習)が必要となり、さまざまなプラットフォームを組み合わせなければならないため、高価かつ複雑な環境を維持しなければならないという。
そのようなことから、同社では「データとAIの民主化」を推進しており、データ統合とデータ分析、AIの活用を可能とするSaaS(Software as a Service)型統合データ分析基盤として「レイクハウスプラットフォーム」を提供している。
レイクハウスプラットフォームは“スマホライク”な次世代データ基盤と定義しており、BI、リアルタイムデータ処理、データサイエンス&機械学習、DWH、データ編集・加工を単一のプラットフォーム上で、一元化されたガバナンスを実現するという。つまり、構造化データのみならず、非構造化データとAIを含めた一元的なガバナンスモデルを提供するというわけだ。
具体的には、DWHとデータレイクの両機能をカバーするアーキテクチャとなり、クラウド上でApache Sparkでデータにアクセスし、Amazon S3、Azure Data Lake Storage(ADLS)、HDFS(Hadoop Distributed File System)など、既存のデータレイクファイルストレージ上に設置されるオープンソースストレージレイヤ「Delta Lake」、ML(機械学習)のライフサイクルを管理する「MLflow」、DWHである「Databricks SQL」などのサービスで構成している。
同氏は「マルチクラウド、オープンアーキテクチャであるレイクハウスプラットフォームを利用する際はデータをコピーする必要がなく、マスターデータのみで対応できる。例えば、AWS S3と契約していた場合、S3上にデータブリックスがデータを展開するため、お客さまのストレージ領域で多種多様なデータを一元化が可能だ。そのうえで、どのデータが誰にどのように使われるのかというガバナンス制御を行い、BIやデータエンジニアリング、データストリーミング、データサイエンス&機械学習を実現する」と説明した。