米ThoughtSpotは2023年7月18日に、年次カンファレンス「Beyond Japan 2023」を国内で初めて開催した。今回、カンファレンスに登壇するために来日した同社CDO(Chief Development Officer、最高開発責任者)のSumeet Arora氏にインタビューする機会を得た。
現在、英語版のプレビューを提供しているGPTを統合した新機能「ThoughtSpot Sage(ソートスポットセージ)」の特徴とともに、LLM(大規模言語モデル)をデータアナリティクスに活用する際に注力したことや、データ分析で提供を目指す「体験」について聞いた。
「売上」「地域」などを検索バーに入力してグラフ作成
インタビューの冒頭でArora氏は、「企業のデータチームは長年、ビジネスサイドの要望に合わせて、BIツールのダッシュボードを調整しなければならなかった。その一方で、企業の営業担当者は分析結果からインサイトを得るのにアナリストと何度もやりとりしていた。データアナリティクスの世界には多くの非効率が放置されてきた。当社はナレッジワーカーが膨大なデータから独力でインサイトを得られるよう、セルフサービス型ツールの開発に注力してきた」と自社の取り組みを紹介した。
ThoughtSpotは、クラウドベースのデータアナリティクスサービス「ThoughtSpot」をSaaS(Software as a Service)で提供しており、国内では京セラやNECネッツエスアイなど複数社が同サービスを導入している。
SQLでクエリを実行して、参照するデータや分析方法を指定する従来のデータ分析手法と異なり、同サービスでは「売上」「地域」など複数の単語を「Liveboard」と呼ばれるダッシュボードの検索バーに入力することで分析を実行し、分析結果をグラフや表で示すことができる。
分析結果のグラフはSlack、Google Sheets、Microsoft Teamsなどのビジネスでよく利用される外部アプリケーションにアウトプットすることが可能だ。
また、「SpotIQ」という機能で分析の深掘りも行えるという。同機能には、同社が独自開発したAIが実装されており、列名や分析手法を指定せずに、分析結果からの異常値検出やトレンド推定などが行えるという。
同サービスは、Amazon Redshift、Snowflake、Databricks、dbt Labsなど複数のサービスと連携するモダンデータスタックの構成を基本としている。
ThoughtSpotによるデータ分析の流れはこうだ。例えば、Amazon Redshiftのデータを使って分析を行う場合は、まず、ThoughtSpotで同サービスのIDやパスワードなどの認証情報を入力してサービス同士を接続させる。次に、ThoughtSpotの検索バーで単語を入力する。この時に、データを集計するためのSQL文が独自開発のクエリエンジンにて生成される。そして、SQL文がAmazon Redshiftに送られて集計が行われ、集計結果の数値とそれらを基にしたグラフや表がLiveboardに表示される。
Arora氏は、「多くBIツールではアプリケーションそのものにデータを取り込む必要があるが、当社のサービスではデータをインポートする必要がなく、集計そのものはクラウドデータウェアハウスで行う。そのため、ユーザーのシステム環境をデータアナリティクス向けに強化する必要がない」と述べた。
GPTとクエリエンジンを組み合わせて自然言語でデータ検索
今後、ThoughtSpotはデータ分析に生成AI(ジェネレーティブAI)を活用しようとしている。具体的な取り組みとして、自然言語処理によるデータ検索機能のThoughtSpot Sageを開発し、2023年6月より英語版のプレビュー提供を開始した。
言語処理の精度と、LLMで必要なパラメータ量などを考慮して、現状ではGPT-3.5およびGPT-4を採用して開発を続けているが、今後は対応するLLMを増やす予定だという。
ThoughtSpot Sageでは、「関東地区で売上パフォーマンスが良かった商品の上位5つは?」といった自然言語での問いかけを検索バーに入力することで、同サービスと連携するデータウェアハウスのデータを参照・分析し、分析結果をグラフや表で示すことができる。
データベース上で参照したカラムやデータを絞り込む際に使用したキーワードは、「トークン」と呼ばれるタグで表示される。データ分析者はトークンで示される単語を確認して、文章が正しく解釈されたうえでデータが検索・集計されているか判断する。例えば、上記の問いかけでは「店舗地方=関東」のレコードからデータを参照しなければならないのに、「店舗地方=関西」のトークンが表示されていたら分析結果が誤っていることになる。
集計結果の右下には「Good」「Not Good」のアイコンがあり、結果に応じてこちらのボタンを押して分析精度のフィードバックが可能だ。Not Goodアイコンを押すと、次回の集計でどのような仕様で分析を行うか指示することで、AIに学習させることができる。
GPT単体でも単純なSQL文を作成することは可能だ。しかし、複数のテーブルを結合させるような複雑なSQL文の作成は難しいという。また、GPTで作成したSQL文で行ったデータ分析では、分析過程のビジネスロジックが欠如してしまうため、分析結果の正確さを担保できないという課題がある。
Arora氏は、「ThoughtSpot Sageでは、独自AIのSearch Data Modelを介してGPTに自然言語による指示を解釈させる。そして、SpotIQにも搭載しているクエリエンジンを利用することでビジネスロジックが担保されたSQL文を作成して、データの検索や分析を実行できる。当サービスで、Googleが提供してきたような検索の体験と、透明性、正確性を担保したAIによる分析を統合した新たなデータ分析体験を提供したい」と意気込んだ。
このほか、ThoughtSpot Sageでは特別なデータセットを準備せずともドリルダウン分析が可能だという。例えば、商品カテゴリー別の売り上げトップ5をグラフ表示させた後、「シャツ」のカテゴリーで一番売れている商品を分析する際は、同カテゴリーのグラフを選択して右クリックすることで、複数のドリルダウンメニューから分析対象である商品名を選択できる。
日本市場では当面、企業規模・業界を問わず製品を提供
2023年6月に同社は、BIツールを提供している米Mode analyticsを買収した。同社の買収によるメリットについてArora氏は、「Mode analyticsはSQL、R、Pythonなどを統合したコードファーストなアナリティクスツールを提供してきた。検索とAIに重点を置いた当社のサービスと統合することにより、シングルプラットフォーム上でコードフリーとコードファーストを両立した体験を多くのユーザーに届けることができる」と語った。
ThoughtSpotは日本市場について、クラウドアプリケーションの利用は進んでいる一方で、データクラウドの活用はここ2~3年ぐらいで採用が広がっている段階にあると捉えている。
日本企業が抱える課題としては、オンプレミス環境のみにデータが存在するサイロ化や、それに伴ってデータ統合が進まないことのほか、社内外のデータを統合的に扱える環境の整備などが挙がった。
インタビューに同席したThoughtSpot SVP, Asia Pacific & JapanのKuntal Vahalia氏は、「多くの日本企業にはデータにまつわる課題があると考えており、当面はエンタープライズからスタートアップまで、企業規模や業界を問わず、当社のソリューションを提案していくつもりだ。日本はビジネスにおいてイノベーションと顧客体験、そしてスピードに重点を置いている。そうしたビジネス文化に応えられるよう、日本に対して一層投資をしていきたい」と国内における今後の事業方針を説明した。