信頼ある生成AIを構築するポイントとは？

2022年は、生成AIの転換点として長く記憶されることになるでしょう。分類や予測だけでなく、テキスト、画像、動画、さらには実行コードなどのコンテンツの自動生成や、業務効率化、アイデアの創出など、生成AIには多くのメリットが期待されています。

ChatGPTやStableDiffusion、Midjourneyといった大規模基盤モデルが2022年に登場し、ほんの数年前まではまるでSFの世界だった機能を実現することで広く注目されました。基盤モデルとは、さまざまなタスクに適応できるように、多様なデータを含む膨大なデータを用いて事前にトレーニングされたディープラーニングアルゴリズムのことです。

これらの基盤モデルは目を見張るような回答を導き出しますが、その最も際立った特徴は、完全とも言える柔軟性にあります。過去10年間の最先端の機械学習モデルとは異なり、基盤モデルは、詩を書いたり、物理学を解説したり、なぞなぞを解いたり、絵を描いたりと、本当に驚くべきコンテンツを生み出し、驚異的な範囲に及ぶ問題を解決します。さらに、トレーニングと人間のガイドを加えることで、その応用範囲は格段に広がっていくのです。

基盤モデルがもたらす仕事の未来

技術者でもあり研究者でもある筆者は、AIとは人々の生活を単に向上させるだけでなく、根本から変えるものと長い間信じてきました。特に、対話型AIを研究すればするほど、テクノロジーの力を活用するのに、専門知識は不要になっていることを確信するようになったのです。AIは、これまでにないパワーと柔軟性、そしてパーソナライゼーションを備えたツールをすべての人に届け、操作に必要なのは自然言語だけです。AIは、私たちの生活のさまざまな場面で、強力な協力者の役割を担ってくれるでしょう。

エンジニア、マーケター、営業担当、カスタマーサポートのスペシャリストにとって、日々の業務におけるAIの役割は、今後ますます拡大していくでしょう。Salesforceでは、何年も費やして、セールス、サービス、マーケティング、およびコマースにおよぶビジネスアプリケーションに最先端のAIを組み込んできました。現在、当社のCustomer 360プラットフォームでは、AIを活用して1日あたり2,000億件を超える予測を生成しています。

しかし、生成AIが起こす革命は本当に目前に迫っているのでしょうか、それともはるか彼方にあるのでしょうか？この議論は、報道されている内容よりも極めて複雑です。

筆者は、Salesforce Researchのエグゼクティブバイスプレジデント兼チーフサイエンティストとして、この問題について独自の視点を持っています。私たちは、世界の最大手企業の中で業務を遂行し、何十億人もの人々にサービスを提供し、社会のあらゆる側面に関わる産業に従事しています。つまり、お客様に提供するすべてのサービスは、ミッションクリティカルな信頼性が求められます。そして、その信頼性は永続的であるべきです。

また、生成AIの威力を否定する人はいませんが、それが信頼できるかどうかは全く別の問題なのです。

生成AIが持つ2面性：新たな能力に伴う新たなリスク

生成AIは、マシンインテリジェンスとのまったく新しい対話を約束するものですが、同時にまったく新しい種類の障害、「自信のある失敗」も引き起こします。質問に答えたり、迅速に応答したりする際に、生成AIが醸し出す、落ち着いた、しばしばプロフェッショナルなトーンは、さも正解を導き出したような印象を与えますが、間違いがある際には極めて深刻です。専門家であっても生成AIの説得力に不意を突かれることはよくあることなのです。

例えば、2022年12月にシカゴ大学とノースウェスタン大学の研究者らはChatGPTを使用して、5つの医学雑誌の実際の論文から引用したタイトルをもとに抄録を生成しました。その後、本物と架空の要約を織り交ぜてブラインドレビューを実施したところ、プロのレビュアーはChatGPTが生成した架空の抄録の32%を本物と誤認し、本物の抄録の14%をChatGPTが生成した架空のものと誤認してしまったのです。

これは課題としては複雑ですが、とてもわかりやすい事例です。マサチューセッツ工科大学、カリフォルニア大学ロサンゼルス校、およびテキサス大学オースティン校から参集した認知科学者チームは、2023年1月18日に発表された論文「DISSOCIATING LANGUAGE AND THOUGHT IN LARGE LANGUAGE MODELS: A COGNITIVE PERSPECTIVE（大規模言語モデルにおける言語と思考の分離：認知的視点）」の中で、生成AIを支えているモデルを人間の脳になぞらえて分析した結果、2つの結論が得られました。

テキストデータでトレーニングする大規模言語モデル（LLM）のような基盤モデルは、人間の言語能力の一つである、文法、活用、単語の選択などのルールに従う複雑だが表面的な能力を表す「形式言語能力」をマスターしています。その一方で、歴史の知識、常識、推論能力などの非言語的スキルを表現するための「機能言語能力」については、ほとんど何もマスターできていません。

要するに、LLMは言語の達人ですが、言語だけなのです。完璧に書かれたパラグラフを作る能力は、そのパラグラフの構成文が実際に何を意味するのかとは全く切り離されているのです。

こうした偏りは大変危険で、これらのツールが現実世界でミッションクリティカルな役割を果たすようになる前に是正されるべきです。

生成AIのユースケースと同様に信頼性の課題もさまざま

しかし、生成AIの技術が企業全体にもたらす可能性の大きさを考慮すると、これは立ち向かう価値のある課題であることは明らかです。アートワークや散文、コードのような複雑なコンテンツを作成したり、さまざまなソースからの情報を要約し、短文や対話形式の質疑応答で提供したりすること、また、リアルな会話のような情報検索や、分析結果をより理解するのに生成AIは役立ちます。これらは革命的な可能性であり、探求する価値が十分にあります。

それぞれのユースケースのいずれにおいても、依然として人間の介入が必要になりますが、その程度や場面はさまざまです。例えば、AIが生成したマーケティングコピーを世に出す前に、人間の編集者が事実確認を行い、改良を加えることがあります。また、非デザイナーが広告バナーやメールのレイアウトをAIに委ねるようなケースでは、その生成物をそのまま受け入れるか、まったく使わないかの二者択一になることもあります。さらに高度な用途では、AIが共同作業に携わり、プロジェクトにおける低レベルのタスクを自動化することで、専門家はより高度な課題にその創造力を集中させることができます。

例えば、IT管理者がカスタムアプリケーションを構築する際に、コード生成モデルをパートナーとして使用する場合を考えてみましょう。AIは、簡単なプロンプトに応じてルーチンコンポーネントやサブシステムを生成します。例えば、「各ネットワークにちなんだ名前のディレクトリにログファイルを整理し、6カ月以上経過した既存ファイルを自動的に削除する」というようなプロンプトです。そうすれば、人間は独自の価値を提供する斬新な問題解決のロジックの開発に専念できます。

こういったワークフローには人間による監視が欠かせませんが、AIをより安全で透明性の高いパートナーにするために、私たちにできることは数多くあります。その多くは、ユーザーがAIの長所と短所をより深く理解することから始まります。アルゴリズムも役に立ちます。例えば、生成AIの標準的な部分として、信頼度（モデルがそのアウトプットを正しいと信じられる度合）を表示することが必要です。低評価のコンテンツにもそれなりの価値はありますが、人間がレビューすることで、より深いレベルの精査が可能になります。また、AIシステムがコンテンツを作成した理由と方法を説明したり、情報源を明らかにしたりすれば、信頼性と正確性の問題に対処することもできます。

これは研究者にとって将来的な問題ではありません。SalesforceのAI製品は、すでに信用と信頼を念頭に置いて構築されており、その中にはお客様が倫理的情報に基づく選択をする際の指針となるガードレールも含まれています。

著者：シルヴィオ・サヴァレーゼ（Silvio Savarese）
Salesforce Research エグゼクティブバイスプレジデント兼チーフサイエンティスト