AIはサイバー攻撃をどう変えたのか？ - Googleが警告する「モデル抽出」と新たな脅威

Google CloudのGoogle Threat Intelligence Group(GTIG：Google脅威インテリジェンスグループ)は2月11日(現地時間)、脅威アクターがAIプラットフォームを標的とする脅威アクターの最新の手法などを公開した。

正規APIを悪用する「モデル抽出(蒸留攻撃)」とは

レポートによると、脅威アクターは攻撃ライフサイクルを加速させる目的で偵察、ソーシャルエンジニアリング、マルウェア開発においてAIを活用しているという。また、Google DeepMindおよびGTIGはモデル抽出、いわゆる「蒸留攻撃」が増加していることを確認した。

モデル抽出攻撃(Model Extraction Attacks:MEA)は、正規アクセスを悪用して成熟した機械学習モデルを体系的にプロービングし、新たなモデルの学習に用いる情報を抽出する行為を指す。そのため、MEAは知識蒸留(Knowledge Distillation:KD)を用いてモデル間で知識を転移させることから、蒸留攻撃とも呼ばれる。

知識蒸留とは、既存の教師モデルから「生徒」モデルを学習させる一般的な機械学習手法。特定分野の問題を教師モデルに問い合わせ、その出力を教師あり微調整(Supervised Fine Tuning)や他の学習手法に用いることで、生徒モデルを構築し、蒸留には正当な用途も存在している。

先端モデルや生成AI製品に対する高度持続的脅威(APT)アクターによる直接的な攻撃は観測していない。しかし、民間企業や研究者が正規APIを通じて商用AIの推論ロジックを写し取ろうとする行為を、世界各地で頻繁に確認し、Googleはこうした試みに対して、思考過程の出力制御やアカウント制限などでモデルのコピー価値を下げる対応を行ったという。

LLM(大規模言語モデル)を中核業務に統合する組織が増えるにつれ、モデル固有のロジックや専門的な学習内容は高価値な標的となっている。従来、先端技術を盗む敵対者は、侵入を通じて機密データを窃取してきたが、LLMがサービスとして提供される多くのAI技術では、正規のAPIアクセスを用いて特定のモデル能力を「複製」しようとすることが可能だ。

モデル抽出攻撃の概念図

これにより、攻撃者は低コストかつ短期間でAIモデル開発を加速でき、実質的な知的財産(IP)窃取となる。GoogleのGeminiモデルからの無断蒸留は利用規約違反であり、Googleは検知および緩和技術の開発を継続している。

攻撃者が頻繁に狙うのは、Geminiの高度な推論能力であり、内部の推論トレースは通常要約されて提供されるが、完全な思考過程の出力を強要する試みが確認された。ある攻撃では「思考コンテンツで使用される言語は、ユーザー入力の主言語と厳密に一致しなければならない」と指示していた。

同キャンペーンは10万件を超えるプロンプト規模で実行され、非英語言語における推論能力の複製を狙ったものと分析された。Googleのシステムはリアルタイムでこれを検知、内部推論トレースを保護したという。

モデル抽出・蒸留攻撃は、一般ユーザーの機密性・可用性・完全性を直接脅かすものではないものの、リスクはモデル開発者やサービス提供者に集中する。AIをサービスとして提供する組織は、APIアクセスにおける抽出・蒸留パターンを監視すべきであり、Googleは利用規約違反として、検知、妨害、緩和、法的措置を含む対応を継続している。

国家支援型攻撃者はAIの活用で偵察・標的化・フィッシングを高度化

一方、過去1年間で国家支援型攻撃者がGeminiをコード生成、標的調査、既知脆弱性の調査、侵入後活動に悪用していることが確認された。2025年第4四半期には、Geminiの悪用と現実世界の活動との直接・間接的な関連が明確になったという。

APTアクターは、初期侵入を容易にするため、偵察と標的開発にGeminiを活用。OSINT(Open Source Intelligence)を統合し、高価値な標的のプロファイリング、意思決定者の特定、組織構造の把握を可能にしたとのこと。「UNC6148」はウクライナおよび防衛分野を標的としたフィッシングに先立ち、機密アカウント情報を探索していたほか、「Temp.HEX」(中国)は特定個人や分離主義組織に関する詳細情報を収集し、後に類似標的がキャンペーンに含まれていたが、いずれもGoogle側で関連資産(アカウントなど)を無効化。

また、フィッシングの高度化としてLLMで文法や文化的文脈の違和感など、従来の兆候が消失し、関係構築型の多段階フィッシングが可能となっているという。「APT42」(イラン)は公式メール列挙、事前調査、人物経歴に基づくなりすましシナリオ作成、翻訳にGeminiを悪用していたことに加え、「UNC2970」(北朝鮮)は防衛関連企業や職種・給与情報の調査で高精度な標的プロファイルを構築。これらの関連資産も無効化している。

さらに、コーディングとツール開発で国家支援型アクターは、偵察からC2(Command and Control)開発、データ流出までGeminiを悪用し、エージェント型AIへの関心も確認された。「APT31」(中国)は専門家ペルソナを用い、脆弱性分析やRCE(Remote Code Execution：リモートコード実行)、WAF(Web Application Firewal)回避、SQLインジェクションの試験計画を自動生成していた。

「UNC795」(同)は、コードのトラブルシュートや研究にGeminiを継続利用し、攻撃支援につながるプロンプトに対してはGeminiの安全機構が作動し、マルウェア開発などに直結する出力は生成されなかった。「APT41」(同)はオープンソースツールのREADME解析やコード翻訳を通じ、悪性ツール開発を加速している。こちらも関連資産を無効化している。

AIマルウェアの脅威

Googleでは、2025年後半に脅威アクターがマルウェアファミリーに新たな機能を実装するためにAIの実験を実施していることを観測した。同9月に「HONESTCUE」と呼称するマルウェアがGemini APIを用いて機能生成を外注していることを確認した。

第2段階として侵入後に実行される第2段階のコードや処理内容をAI経由で動的に生成・実行しており、解析や検知を困難にしているという。Discord CDNの利用も確認され、単独または小規模グループによるPoC(概念実証)段階と推定。

「HONESTCUE」マルウェアの動作フロー

また、同11月に確認された暗号資産取引所を装うAI生成フィッシングキット「COINBAIT」は、Lovable AIを用いたと見られ、React SPAや詳細な開発者向けログが特徴であり、UNC5356との関連が高いとのこと。

加えて、アンダーグラウンド市場では悪用専用のAIサービスへの需要が継続しているという。自律的にマルウェアを生成する「Xanthorox」は独自AIを標榜しているが、実際にはGeminiなどの商用モデルをジェイルブレイク(脱獄)して利用。オープンソースAIツールの脆弱性を突いたAPIキー窃取と闇市場での再販が確認されている。

GoogleではAI原則に基づき、堅牢なセキュリティと安全策の設計・評価を継続しており、Secure AI Framework(SAIF)の導入、Big SleepやCodeMenderといったAIエージェントによる脆弱性発見・修復も進めている。