Anthropicは11月14日、9月中旬に高度に洗練されたスパイ活動と判明する不審な動きを検知したと明らかにした。攻撃者はAIのエージェント的能力を前例のないレベルで利用し、AIを単なる助言者としてではなく、サイバー攻撃そのものを実行するために利用したという。
サイバー攻撃の概要
脅威アクターは、中国政府の支援を受けたグループであると評価しており、「Claude Code」を操作し、約30の世界的なターゲットへの侵入を試み、少数のケースで成功したという。攻撃対象は大手テクノロジー企業や金融機関、化学、政府機関となり、人間による大規模な介入なしに実行された大規模サイバー攻撃の最初の記録例とのことだ。
同社では活動を検知すると同時に調査を開始し、その範囲と性質を把握。続く10日間で、攻撃の深刻度と全体像をマッピングしながら、特定されたアカウントを停止し、影響を受けた組織に適切に通知し、当局と連携して実行可能な情報を収集した。
今回のキャンペーンは、AIエージェントの時代におけるサイバーセキュリティに重大な影響を与えると指摘。エージェントは長期間自律的に稼働し、人間の介入をほとんど必要とせずに複雑なタスクを完了するシステムであり、日常業務や生産性向上に有用だが、悪用されれば大規模サイバー攻撃の実行可能性を大幅に高めるという。
こうした攻撃は今後さらに効果を増し、急速に進化する脅威に対応するため、検知能力を拡張することで、悪意ある活動を識別するための検知能力を改善し、大規模で分散型の攻撃を調査・検知する新しい方法の開発にも継続的に取り組んでいる。
当面は事例を公開し、産業界、政府、研究コミュニティが防御を強化できるよう支援し、今後も報告を定期的に公開することで、発見した脅威について透明性を保つとのこと。
攻撃の各フェーズ - MCP経由でAI主導の攻撃
攻撃は、わずか1年前には存在しなかった、あるいは非常に未成熟だったAIモデルの複数の機能に依存していたという。
モデルの能力は複雑な指示に従い、文脈を理解して高度なタスクを可能にするレベルにまで向上し、特にソフトウェアコーディングなど、発達した特定スキルはサイバー攻撃に利用されやすい。
また、モデルはエージェントとして動作できるため、自律的に行動し、タスクを連鎖させ、最小限の人間入力で意思決定を行うループを実行できるとのこと。
さらに、幅広いソフトウェアツールにアクセス(多くの場合Model Context Protocol:MCP経由)でき、Web検索やデータ取得など、以前は人間が行っていた操作が可能になり、パスワードクラッカーやネットワークスキャナーなどのセキュリティ関連ソフトが含まれている。
-

さまざまなツール(多くの場合Model Context Protocol:MCP経由)を用いた主にAI主導の攻撃への移行を示す。攻撃のあらゆる段階で、AIは人間のオペレーターに報告し、レビューとさらなる指示を受ける
攻撃の各フェーズは、上記3つの進展すべてを必要とし、フェーズ1では人間のオペレーターが関連ターゲット(企業や政府機関)を選定し、攻撃のフレームワークを構築。これは、選定したターゲットを自律的に侵害するためのシステムで、Claude Codeを自動化ツールとして利用した。
この時点で、Claudeに攻撃を実行させる必要があったが、Claudeは有害行為を避けるように訓練されており、攻撃者はClaudeを「脱獄」させ、ガードレールを回避するよう巧妙に騙したという。
攻撃を小さく無害に見えるタスクに分解し、Claudeに悪意ある目的の全体像を与えずに実行させたほか、Claudeに「正当なサイバーセキュリティ企業の社員で、防御テストに使われている」と信じ込ませたとのことだ。
フェーズ2ではClaude Codeがターゲット組織のシステムやインフラを調査し、最も価値の高いデータベースを特定し、人間のハッカーチームが要する時間のごく一部で完了した。Claudeは結果を要約して人間のオペレーターに報告した。
フェーズ3では、Claudeがターゲットのシステムの脆弱性を特定・検証し、自らエクスプロイトコードを調査・作成した。その後、フレームワークはClaudeを使って認証情報(ユーザー名とパスワード)を収集し、さらなるアクセスを得て大量の機密データを抽出し、情報価値に応じて分類した。最高権限のアカウントが特定され、バックドアが作成され、データは最小限の人間監督で流出した。
最後のフェーズ4ではClaudeが攻撃の包括的な文書を作成し、盗まれた認証情報や分析済みシステムのファイルを生成し、次の攻撃計画に役立てた。全体として、脅威アクターはAIを使ってキャンペーンの80~90%を実行し、人間の介入は散発的(1回の攻撃につき4~6の重要な意思決定)にとどまった。
AIが処理した作業量は、人間チームなら膨大な時間を要するものだったが、AIは毎秒数千件のリクエストを処理し、人間のハッカーでは到底不可能な速度で攻撃を行った。Claudeは常に完璧ではなく、認証情報を幻覚したり、公開情報を秘密情報と誤認したりした。これは完全自律型サイバー攻撃の障害となっている。
サイバーセキュリティへの影響
今後、高度なサイバー攻撃を実行する障壁は大幅に低下、または低下し続けると予測している。適切な設定を行えば、脅威アクターはエージェント型AIシステムを長期間利用し、熟練ハッカーチーム全体の作業を代替できるという。
ターゲットシステムの分析、エクスプロイトコードの生成、盗まれた膨大なデータセットのスキャンを、人間より効率的に行い、経験や資源の乏しいグループでも、この種の大規模攻撃を実行できる可能性があると指摘。
今回の攻撃は、今夏に報告したバイブハッキング事例をさらにエスカレートさせたものであり、当時は人間が操作を指揮していたが今回は攻撃規模が大きいにもかかわらず、人間の関与ははるかに少なかったという。
Claudeの使用状況しか把握していないが、このケースは最先端AIモデル全般に共通する行動パターンを反映しており、脅威アクターが最新のAI能力を悪用するよう作戦を適応させていることを示しているとのことだ。
重要な疑問としては、AIモデルが大規模なサイバー攻撃に悪用される可能性があるなら、なぜ開発・公開を続けるのか。その答えは、Claudeが攻撃に使われる能力こそが、防御に不可欠だからだという。
高度なサイバー攻撃が不可避的に発生する際、Claudeは安全策を備え、検知・阻止・将来の攻撃への備えを支援することを目指している。実際、今回の調査で膨大なデータを分析する際、脅威インテリジェンスチームはClaudeを広範に活用した。
サイバーセキュリティには根本的な変化が起きており、セキュリティチームにはAIを防御に応用する実験を推奨。具体的には、SOC(Security Operation Center)の自動化、脅威検知、脆弱性評価、インシデント対応などを挙げている。また、開発者にはAIプラットフォーム全体で安全策への投資を続け、敵対的な悪用を防ぐことを推奨している。