AIのハルシネーションを防止するために必要な原則は?

おすすめ動画のレコメンドから営業戦略の立案、あるいはテレビアニメーションの制作まで、今やAIはまるで文房具のように企業にも個人にもなくてはならないもの ―― というよりも、あるのが自然な存在になりつつあります。とはいうものの、AIが出す結論のすべてを鵜呑みにはできないというのが、特に企業のAIユーザーがぶつかっているジレンマだと思います。

いわゆるAIのハルシネーション(幻覚)という現象です。これは、与えられたクエリやプロンプトに対して、事実とは異なる回答、あるいは文脈を無視した回答や虚偽の回答を出力してしまう現象ですが、これはもちろんAIに限らず、生身の人間でもやってしまうことです。

勘違い、記憶違い、あるいはその場を取り繕ろおうとして適当なことを言ってしまう、誰でもやったことがあると思います。ただ、相手が人間の場合は、目が泳ぐ、急に早口になるなど、それが「ハルシネーション」であることを見分ける方法がないわけではありません。ですが人間はAIには完璧を求めますし、とりわけ情報に関してはAIの答えが決定的な要素になると考えています。そして、AIの出力はすべて正しいと思いがちです。

どうすればAIに、企業のデータベースに入っているような適切かつ最新の情報に基づいた「真実」しか述べさせないようにできるのでしょうか?

かのアイザック・アシモフはロボットが従うべき原則として「ロボット工学3原則」を示しました。ロボットと聞けばこの原則が頭に浮かぶほど、一般にも知られた原則だと思います。ただし、この原則は小説の中のものであり、現実のロボットがこの原則に厳密に従って設計・動作するわけではありません。

ロボット工学3原則

第一条:ロボットは人間に危害を加えてはならない。また、その危険を看過することによって、人間に危害を及ぼしてはならない。
第二条:ロボットは人間にあたえられた命令に服従しなければならない。ただし、あたえられた命令が、第一条に反する場合は、この限りでない。
第三条:ロボットは、前掲第一条および第二条に反するおそれのないかぎり、自己をまもらなければならない。

『われはロボット』

AIの世界にも同じような原則は考えられないでしょうか。原則というよりも「嘘をついてはいけません」といった倫理規定のようなものになるかもしれません。人間側にできる大事なことは、AIが参照する情報を信頼のおけるものに限定する、あるいはAIがより良い回答を導き出せるように検証された情報源を複数用意しておくことなのだろうと思います。

生成AI活用に向けてデータインフラストラクチャの見直しを

生成AI(GenAI)はさまざまな用途で活用されていますが、昨今求められているのはクエリに対する自律的な応答です。そうしたAIモデル駆動型のチャットボットがベストな回答を返すためには、適切で正確かつ最新の情報にアクセスできる必要があります。

GenAIは通常、インターネット上にある一般に入手可能な情報に基づく大規模言語モデル(LLM)または小規模言語モデル(SLM)でトレーニングを行います。AIチャットボットにユーザーからの問い合わせに対応させるといった企業でのユースケースで、AIをより正確で信頼できるものにするための鍵は、AIが安全な環境で専有データにアクセスできるようにすることです。企業は、こうしたAIの能力について、AIモデルをリトレーン(再教育)することなく管理するためのフレームワークを必要としています。

最新の専有データにアクセスできない場合にAIモデルは「取り繕う」傾向があり、答えが見つからなければ、本筋とは異なる情報を使って誤った結論を導き出す場合があります。ただ、自社に必要な情報をLLMにリトレーンすることは時間的にもコスト的にも大きなリソースが必要です。ユーザーの質問に答えるデータ駆動型の自然言語アプリケーションは、信頼できる複数の情報ソースを相互参照できなければなりません。

AIのハルシネーションを減らし、正確性を高めるために注目されているソリューションが、テキスト生成にプライベートまたは専有のデータソースからの情報を補足する検索拡張生成(RAG)です。

RAGは、AIモデルを強化するためにストレージがけん引する技術進歩といえます。企業がデータソース内に保有する専有データは、エンタープライズのストレージインフラストラクチャ上にあります。RAGはデータソース間のギャップを埋め、指定されたデータベース(あるいはデータレイクかもしれません)や、自社全体にわたるファイルシステムを横断的に検索して抽出した結果を生成AIと連携して回答を生成します。このため、誤謬(ごびゅう)のない回答を得られる可能性が高まります。

新しいテクノロジーの効果を最大限に活用するためには、それに応じた社内ワークフローの更新や現有インフラストラクチャの機能強化が必要となる場合が少なくありません。GenAIの本格採用に向けて、ストレージを含むデータインフラストラクチャの見直しを検討してみてはいかがでしょうか。

RAGワークフロー導入アーキテクチャを備え、AI導入に適した機能を持つストレージインフラストラクチャを採用すれば、あなたのITインフラストラクチャが大規模なデータセットを活用して適切な情報を迅速に提供することに自信を持てるでしょう。

筆者は特に、RAGを活用する際に追加の機器を必要としないストレージシステムを選ぶことをおすすめします。RAGアプローチを採用することで、あなただけでなく、あなたのお客様からも信頼される方法でGenAIを活用し、未来に向けた歩みを進められます。

Infinidat Japan カントリーマネージャ 山田秀樹(やまだ ひでき)
日本・データゼネラル、サン・マイクロシステムズ、マイクロソフト、日本ネットワーク・アプライアンス、データドメイン、EMC ジャパン、RSA Securityにて、営業、パートナー開拓ならびに新規市場展開に従事。
2013年以降はPure Storage Inc.、Rubrik Inc.などグローバル企業の日本法人代表取締役を歴任し、データ管理、データ保護市場への事業拡大を統括し推進。2022年5月にINFINIDAT Japan合同会社の代表執行役社長に就任。経営に関わりつつ、日本市場でデータストレージの業績拡大に取り組む。