日本IBMは4月26日、AI&データプラットフォーム「IBM watsonx」を構成する主要コンポーネントの1つである「watsonx.data」に関する記者説明会を開催した。

2つの顔を持つ「watsonx.data」

watsonxは、AIモデルのトレーニング、検証、チューニング、導入を行う「watsonx.ai」、あらゆる場所のさまざまなデータに対応してAIワークロードを拡大するwatsonx.data、責任と透明性があり、説明可能なデータとAIのワークロードを実現する「watsonx.governance」の3つのコンポーネントで構成し、「Red Hat OpenShift」によりクラウド、オンプレミス、エッジ環境でも動かせる。

日本IBM テクノロジー事業本部 Data and AI製品統括部長の四元菜つみ氏は、watsonx.dataについて「AIとデータ活用を促進するためのデータプラットフォームであり、提供形態はソフトウェアおよびAWS(Amazon Web Service)とIBM Cloudのマネージドサービスで提供している。そして“データストア”と“AIデータベース”という2つの顔を持っている」と説明する。

  • 日本IBM テクノロジー事業本部 Data and AI製品統括部長の四元菜つみ氏

    日本IBM テクノロジー事業本部 Data and AI製品統括部長の四元菜つみ氏

データストアは、情報系インフラなどにおけるコストパフォーマンスを実現するために生み出されたデータを溜める「レイクハウスアーキテクチャ」としての顔だ。また、AIデータベースとしての顔は、生成AIのアウトプットに対する信頼性を向上させる「ベクトルDB(Milvus)」と、データへの意味付けと検索処理をAIで強化してクイックかつ簡単に欲しいデータの入手を可能とする「セマンティックオートメーション」となる。

  • 「watsonx.data」は2つの顔を持つという

    「watsonx.data」は2つの顔を持つという

処理エンジンを選択できるwatsonx.dataのレイクハウスアーキテクチャ

レイクハウスアーキテクチャに関しては日本IBM テクノロジー事業本部 watsonx製品主幹の張重陽氏が解説した。

  • 日本IBM テクノロジー事業本部 watsonx製品主幹の張重陽氏

    日本IBM テクノロジー事業本部 watsonx製品主幹の張重陽氏

まず、同氏はデータ利活用における課題について「昨今、AIの利用拡大やビッグデータの急増により、企業はデータ管理においてクラウド移行後に発生した高額なデータ基盤のコストや、IoTにおける非構造化データまたは生成AIの利用に伴うデータの爆発的な増加、データガバナンスや個人情報の保護の厳格化などの課題に直面している」と指摘。

こうした背景からデータ基盤のテクノロジーも進化しており、これまでのデータストアは90年代にデータウェアハウス(DWH)、2000年代にデータレイク、その後はクラウドDWHと進化している。

昨今では、DWHとデータレイクの良いとこ取りの技術としてデータレイクハウスが注目を集めており、単一の場所でBIとAIの両方に対応し、DWHと比較して低コストでオープンかつ柔軟な環境となっている。

  • データストアの変遷

    データストアの変遷

とはいえデータレイクハウスにも課題点はあり、クエリエンジンの選択肢がなくBI(ビジネスインテリジェンス)、ML(機械学習)のみでしか活用できないほか、クラウドのみ利用可能であることからオンプレミスやハイブリッドクラウドでは活用できないという。また、ガバナンス機能やメタデータ機能がなく、幅広いユーザーに展開するには不安があるとのことだ。

その点、watsonx.dataは従来のレイクハウスが抱えていたクエリエンジンや稼働環境の選択肢を増やし、ガバナンスを提供することで、単一のデータレイクで集中管理を行い、ワークロードに適したクエリエンジンの選択でコストの最適化が図れるという。

  • watsonx.dataのシステム構成

    watsonx.dataのシステム構成

watsonx.dataでは、Netezzaエンジン、Db2エンジン、Presto、Apache Spark、他ベンダーのエンジンなど複数のSQLエンジンを選択できる。高性能な処理性能が求められるBIクエリなどはDWHエンジンを使用し、一定の時間内に収まる場合はバッチ処理などをオープンソースのエンジンを使用する。

例えば、BIダッシュボードはDWHエンジン、BIレポーティングにはPresto、バッチ/ETLではSparkといった具合だ。

張氏は「業務要件、ワークロードの属性に合わせて、適材適所にクエリエンジンを選択するべきだ。例えば、クリティカルな場面では性能優先の処理エンジン、夜間バッチなどはコスト優先で選択することができる。また、顧客の業務シナリオに合わせてリソースを調整する必要があるが、DWHは書き込みが苦手なためSparkエンジンを使用すればコスト低減が期待できる」と力を込めていた。

  • ワークロードに応じたクエリエンジンでコストを最適化できるという

    ワークロードに応じたクエリエンジンでコストを最適化できるという

ベクトルDBとセマンティックオートメーション

続いて、日本IBM テクノロジー事業本部 テクニカル・スペシャリストの丹羽輝明氏がベクトルDBと、セマンティックオートメーションについて説明した。

  • 日本IBM テクノロジー事業本部 テクニカル・スペシャリストの丹羽輝明氏

    日本IBM テクノロジー事業本部 テクニカル・スペシャリストの丹羽輝明氏

丹羽氏は「フリーワード検索で思い通りの結果が得られないことがあり、新しい情報を知りたいといった漠然としたニーズに対して、最近の情報過多時代では網羅的にデータを収集・提供し、新しい気付きを与えてくれるセマンティックな検索が求められている」と述べた。

同氏によると、セマンティック検索の仕組みはレコメンドと似ており、レコメンドシステムでベクトルデータベースを利用することで、高速・効率的な類似度検索を実現し、ユーザーに適切な推薦を提供しているという。

丹羽氏は「レコメンドと生成AIを組み合わせると、単純なレコメンドからAIのサジェスチョン(示唆)に姿を変える。生成AIが参照するデータベースとして利用されることで、生成AIの信頼性が向上することはもちろん、多様なレコメンドから文章の要約や重要なポイント抽出することで、新しい気付きや知見を簡単に得ることができるようになる」と話す。

こうしたレコメンドを実現する技術としてベクトル類似検索だ。これは、単語や文章、画像、音声などをコンピュータで処理できるようにベクトル化するというもの。ベクトル化の処理はエンベディングモデルを用いることで、データの重要な特徴や関係性を保持したままベクトルデータに変換できるという。

一方で、データの検索量が多くなった際に時間を要するという課題がベクトル検索には存在する。そのため、ベクトル専用のデータベースを利用すれば効率的にデータを処理することが可能だという。

  • ベクトルデータベースは効率的なデータ保存を可能にするという

    ベクトルデータベースは効率的なデータ保存を可能にするという

そして、それを実現するものが「Milvus」だ。Milvusはエンタープライズ用のデータ分析基盤となり、大量のデータを効率的に処理することを可能としている。データは移動せずにレポーティングやデータ分析、AIワークロード向けに最適なエンジンを選択することでデータ分析基盤のコスト削減を支援し、3月末からwatsonx.data上で利用が可能になっている。

  • 「Milvus」の概要

    「Milvus」の概要

Milvusについて、同氏は「エンジンとデータが疎結合のため、お客さまの要件に応じてエンジンのスケールアップ・アウトを可能としており、大規模データのパフォーマンスとコストを最適化するためのインデックスタイプが豊富だ。運用に関しては、コレクションを用いたデータ管理、アクセス制御、ベクトル検索とキーワード検索を合わせたハイブリッド検索、大規模なデータに対する検索期間の指定や検索するデータソースの制限もできることから、簡単にデータをレコメンドすることが可能。このような仕組みがレイクハウスの思想とマッチしている」と説明した。

  • 「Milvus」の特徴

    「Milvus」の特徴

また、ベクトルデータベースを活かし、watsonx.dataの機能として「セマンティックオートメーション」の利用が可能となり、散在したデータから必要なデータを簡単に見つけることができるとともに、データガバナンスを効かせることでデータ分析サイクルの短縮やデータ活用ユーザーの裾野を広げることをサポート。2024年半ばにGA(一般提供)を予定している。

  • セマンティックオートメーションの概要

    セマンティックオートメーションの概要

最後に四元氏は「これらwatsonx.dataの機能は、お客さまが抱えられている課題を解決することや新たな取り組みにも簡単に活用できる。また、AIを利用しているということを意識しなくてもAIのメリットを享受できるという考え方を体現したものになる」と締めくくった。