eSecurity Planetは3月16日(現地時間)、「AI Email Summaries Create a New Phishing Attack Surface|eSecurity Planet」において、AIアシスタントに新たなセキュリティの脅威が判明したと報じた。

Permiso Securityの研究によると、細工したメールを通じてAIの出力を操作し、ユーザーをだます新しいフィッシング攻撃が可能になるという。この手法はAIの回答そのものを改ざんする点が特徴で、従来の「人をだます攻撃」から「AIをだまして人をだます攻撃」へと進化している。

  • AIアシスタントがフィッシング攻のターゲットに Photo:PIXTA

    AIアシスタントがフィッシング攻のターゲットに Photo:PIXTA

Copilot全体に波及、Teamsが特に影響大

この調査はMicrosoft Copilotを対象に行われた。そのため、Copilot関連のAIサービスに限定して問題や影響などを伝えているが、他社のAIアシスタントも本質的に同じ問題を抱えており、影響を受けると推測されている。

研究者はこの攻撃手法の影響を受けるサービスとして、Outlookの要約、Outlook Copilotペイン、Teams Copilotの3件を報告。これは他のサービスの安全性を示すものではなく、調査をしていないまたは報告していないことによる。つまり、影響はCopilotを統合するすべてのアプリおよびサービス(Microsoft 365 Copilotを含む)に及ぶ可能性がある。

細工したメールの処理結果は各インタフェースで異なり、3件のサービスの中ではTeams Copilotが最も影響を受けやすいと評価されている。また、攻撃は毎回成功するわけではなく、無視される場合もあれば、拒否される場合もあるという。

攻撃に成功した場合は各インタフェースのAI出力結果に、攻撃者の意図した結果が反映される。研究者は具体例として、攻撃者の指示に従うAIアシスタントの画像を掲載。メール本文には攻撃者の指示があり、右側のメッセージ欄では攻撃者の要求に従ってAIアシスタントが内部情報を検索している様子を確認できる。

  • 情報流出につながる攻撃の成功例 - 引用:Permiso Security

    情報流出につながる攻撃の成功例 引用:Permiso Security

AIの回答が信頼できなくなるリスク

この問題は、AIシステムに対する信頼の前提を崩す恐れがある。セキュリティトレーニングを受けた利用者はメールを信用しないように教育されるが、一方でAIシステムの回答には信頼を寄せており、改ざんされたシステムの回答を信じる可能性が高いとされる。

だからといって、システムの通知を疑うように教育するとAIを導入した意味がなくなり、作業効率が低下することになる。この攻撃手法はAI導入企業に情報流出のリスクを発生させ、AI活用を困難にする可能性がある。

完全防御は不可能、現実的な対策は何か

AIの導入は業務効率を改善するが、同時に今回のような新しい脅威を生み出すことにつながる。企業はAI技術の導入時に、AI特有の新しい脅威についても把握して対策を講じる必要がある。

具体的な対策として、多層防御の導入、AI出力の監視、本件を含めた従業員教育の徹底が紹介されている。また、攻撃の成功率を低減させるため、最新パッチの適用、AIアシスタントに対する「最小権限の原則」の適用、AIアシスタントのデータ取得能力の制限、メールセキュリティの強化なども提案している。

いずれも根本的な対策ではなく、脅威を100%排除できるものではない。これは、現行のAIモデルが「指示者とその指示」を正確に把握できない課題を抱えていることに由来しており、完全な解決にはAI開発企業の取り組みに期待するほかない。それまでの間、企業はリスクの低減に努めることが望まれている。

今回の問題の本質は、AIが外部から与えられた情報の「意図」や「信頼性」を正確に判断できない点にある。人間は不審なメールを疑うことができるが、AIは与えられた指示を前提として処理してしまう。この構造の違いが、新たな攻撃面を生み出している。