OpenAI、AIブラウザへのプロンプトインジェクション攻撃は「完全解決不可能」と認める

生成AIを統合したAIブラウザはOpenAI、Perplexityなどから提供されており、ブラウザ業界に変革を起こすかが注目されている。一方で、生成AIのセキュリティリスクと言われるプロンプトインジェクションについて、AIブラウザは完全に解決できていないという。

「ChatGPT Atlas」が攻撃範囲を拡大

プロンプトインジェクションとは、AIエージェントを操作して悪意のある指示に従わせる攻撃手法で、生成AI登場時から指摘されているリスクだ。

OpenAIは10月にAIブラウザ「ChatGPT Atlas」を公開した。その後、セキュリティ研究者はGoogle Docsに仕込んだ数語からなる文字列でブラウザの動作を変更できることを実証したという。

また、OpenAI Atlasに限定したものではないが、英国の国家サイバーセキュリティーセンターは12月、生成AI アプリケーションに対するプロンプトインジェクション攻撃は「完全に軽減できない可能性がある」との警告を出している。

OpenAIはブログで「プロンプトインジェクションは、Web上の詐欺やソーシャルエンジニアリングと同様、完全に『解決』されることはない」と述べ、ChatGPT Atlasの「エージェントモード」がセキュリティ脅威の範囲を拡大することを認めた。

OpenAIの対策は？

OpenAIの対策は、強化学習で訓練された「LLMベースの自動化された攻撃者」だ。このボットはハッカーの役割を果たし、AIエージェントに悪意のある指示を忍び込ませる方法を探す。

実際の攻撃前にシミュレーションでテストでき、外部の攻撃者がアクセスできないターゲットAIの内部推論を分析できるため、より速く脆弱性を発見できるという。同社のデモでは、自動化された攻撃者が悪意のあるメールをユーザーの受信箱に滑り込ませた。

ユーザーが「最新の未読メッセージに不在通知を送信して」とエージェントに指示したところ、セキュリティアップデート前は、AIエージェントがメールに仕込まれた悪意のある指示に従い、不在通知の代わりにCEOへ辞表を送信していた。しかし、セキュリティアップデート後は、エージェントモードが攻撃を検出しユーザーに警告できるようになったという。