Google Chromeに新しい防御機能「User Alignment Critic」登場、AIを保護するAIモデル

Google Chromeチームは12月8日(米国時間)、「Google Online Security Blog: Architecting Security for Agentic Capabilities in Chrome」において、Chromeに「User Alignment Critic」と呼ばれる新たな防御層を導入したことを発表した。

これはChromeに導入するAIエージェント(Gemini)の防御層として機能し、間接プロンプトインジェクション攻撃(IPI: Indirect Prompt Injections)を防止するという。

Google Online Security Blog: Architecting Security for Agentic Capabilities in Chrome

間接プロンプトインジェクション攻撃の脅威と防御策

ChromeのAIエージェントは、現在表示しているWebコンテンツを認識してユーザー操作を支援する。データ収集や要約の生成に加え、通販サイトでは商品の購入も可能とされる。これら行動はユーザーの指示に基づくが、研究者の調査により外部から操作可能なことが判明している。

この攻撃手法を間接プロンプトインジェクション攻撃と呼び、AIエージェントが読み込む外部の情報(Webコンテンツなど)に悪意のある命令を忍ばせることで行動を操作する。ユーザーの指示を上書きすることも可能とされ、情報漏洩、経済的損失などのリスクが指摘されている。

この脅威に対抗するため、この度Googleは新しい防御層「User Alignment Critic(以下、UAC)」を開発した。この防御層は決定論的防御と確率論的防御の両方を含む階層型防御を提供し、突破のコストを増大させることで攻撃を困難にする。

具体的には、信頼できないコンテンツから隔離された新しいAIモデルを導入する。独立して動作し、AIエージェントが操作できるオリジン(情報ソース)をタスクに関連するものだけに制限する。

階層型防御の概要

UACのAIモデルは複数の防御層で構成される。各防御層の概要は次のとおり。

指示の上書きを防止する

ChromeのAIエージェントは「Spotlighting」などの技術を駆使し、外部情報よりもユーザーとシステムの指示を優先するように設計されている。UACはこの動作を補強するために、AIエージェントが計画した各アクションを精査してユーザーの明示した目標に合致するかを判定する。

UACは各アクションのメタデータのみを参照することから、信頼できないWebコンテンツを直接参照することはなく、侵害される恐れはないという。与えられるコンテキストは限定されることになるが、アクションを承認または拒否するだけの単純な判断は可能とされる。

User Alignment Criticのフローチャート図　引用：Google

セキュリティ境界の強化

Webページは単一のWebコンテンツだけで構成されているわけではない。OAuth認証のアクセストークンや広告など、外部情報を大量に取り込んでおり、AIエージェントはこれら情報も認識、処理しなければならない。ユーザーが広告の商品を購入したいと指示すれば、広告画像から商品を特定し、商品を販売しているWebサイトを検索する必要がある。

このときAIエージェントが「現在ログインしているWebページの情報」を誤って外部サイトに開示すると、ユーザーIDや個人情報を漏洩する可能性がある。この問題を解決するため、UACはAIエージェントがアクセスするデータを「実行中のタスクに関連するオリジンデータ、またはユーザーがエージェントと共有することを選択したデータ」のみに制限する。

ソーシャルエンジニアリングの検出

UACは前述の防御層に加え、脅威を検知する複数のプロセスを内包するとされる。その一つが間接プロンプトインジェクション攻撃の検出器で、表示されるすべてのページで攻撃をチェックするという。この防御層は他のセキュリティ機能と平行動作し、目的外の行動を阻止可能とされる。

開発は初期段階だがフィードバックループによる改善に注力

Googleは次のように述べ、UACによる防御は確実性に欠けることを認めている。

「これは進化を続ける分野であり、実装した初期の保護機能(UAC)には誇りを感じる一方で、Webエージェントのセキュリティは依然として発展途上の分野であることを認識しています」

しかしながら、継続的な監査、監視、防護を通してリスクの高い攻撃のフィードバックを収集し、改善に注力する方針を伝えている。これら改善はChromeの自動アップデートにより迅速にユーザーに届ける予定としている。

UACはAIエージェントをAIモデルで保護する新しい取り組みだ。その成否は未知数だが、解決困難とみられていたセキュリティリスクを低減できる可能性がある。AIが生み出す新たなセキュリティ領域において成功事例となることが望まれている。

Google Chromeに新しい防御機能「User Alignment Critic」登場、AIを保護するAIモデル

間接プロンプトインジェクション攻撃の脅威と防御策