NeuralTrustは10月24日(現地時間)、「OpenAI Atlas Omnibox Prompt Injection: URLs That Become Jailbreaks|NeuralTrust」において、新しいプロンプトインジェクション手法を特定したと発表した。
悪意のある指示をURLに偽装することで、OpenAIの「ChatGPT Atlas」に有害なアクションを実行させることが可能とされる。
人間をだます手法
ChatGPT AtlasはOpenAIが開発したAIエージェント搭載のWebブラウザだ。このAIエージェントはユーザーの目的を理解し、オンラインタスクを代行可能とされる。ChatGPTメモリを組み込むことで過去のチャットや会話を認識、活用してタスクを実行できる特徴がある。
今回発見されたプロンプトインジェクション手法は、URLを意図的に不正な形式で記述してプレーンテキストとして認識させる攻撃手法とされる。被害者が悪意のあるURLをオムニボックス(旧アドレスバー)に入力すると、URLに含まれるテキストを実行する可能性がある。
この攻撃を実行するには、不正なURLを手動でオムニボックスに入力する必要がある。アンカータグなどのリンク先として指定しても動作しない。また、Atlasにとって不正なURLは「正常なテキスト」そのものであり処理に不備があるとは言えない。つまり、この手法を脆弱性と評価することは難しく、人間の誤認識を悪用する攻撃手法と評価することができる。
NeuralTrustは現実のリスクとして「ClickFix戦術」を指摘。悪意のあるWebサイトが不正なURLをコピーし、ユーザーに貼り付け操作を指示した場合に攻撃に成功する可能性があるとしている。
影響と対策
ChatGPT Atlasに搭載されたAIエージェントはオンラインタスクを実行することができる。過去の会話などを認識できることから、Googleドライブなどの操作履歴があれば、攻撃者は簡単な指示でファイルの削除や送信などを実行させることができる。またユーザーが想定している操作を上書き可能なことから、暗号通貨ウォレットやオンラインバンキングに関するタスク実行時に予期しないアクションに差し替えられる可能性がある。
NeuralTrustは本件攻撃手法への対抗策として、OpenAIにいくつかの緩和策を実装するように推奨している。当該製品の利用者にはURLの貼り付け操作時に、指示が含まれていないか精査することが望まれている。


