AIが匿名ユーザーを特定、研究で識別率最大67%

The Guardianは3月8日(英国時間)、「AI allows hackers to identify anonymous social media accounts, study finds｜AI (artificial intelligence)｜The Guardian」において、匿名で活動するオンラインユーザーの特定を可能とするAI研究論文が発表されたと報じた。

論文はAI研究者のSimon Lermen氏、Daniel Paleka氏、Joshua Swanson氏、Michael Aerni氏、Nicholas Carlini氏、Florian Tramèr氏の共同研究として発表された。タイトルは「大規模なオンライン匿名化解除と大規模言語モデル(LLM: Large Language Model)」で、25%～67%の識別率で匿名化されたユーザーの特定または照合に成功したことが示されている。

研究者の発表：Large-Scale Online Deanonymization with LLMs
研究論文：[2602.16800] Large-scale online deanonymization with LLMs

AIによりオンラインの匿名ユーザーの特定が可能であることがわかった　Photo：PIXTA

LLMで匿名投稿からユーザーを特定

研究の目的は、LLMを使用することで匿名のオンライン投稿から身元を特定できるか検証することにある。実験にはHacker News、Reddit、LinkedIn、Anthropic Interviewerが使用された。匿名解除の手順は次のとおり。

投稿から身元に関連する特徴を抽出
特徴から一意の識別子を削除して検索プロンプトを生成(一意の識別子を残すと匿名化の条件を満たさない)
Web検索機能を備えたAIエージェントにプロンプトを入力する

匿名解除の手順 - 引用：研究論文

推論能力と投稿量が識別率を左右

研究者たちは3種類の実験を行い、評価および検証している。実験結果は、LinkedInプロフィールにリンクしているHacker Newsユーザーの実験で67%の識別率。Redditデータセットの実験では2パターンが試行され、25%および52%の識別率。Anthropic Interviewerの実験では25%～27%の識別率にとどまった。

識別率にはLLMの推論能力と、ユーザーの提供コンテンツ量が影響することが示されている。推論能力のより高いLLMを使用すると識別率が向上する結果を得られており、各AI開発企業の努力が続く限り、識別率も上昇し続ける可能性がある。また、コンテンツ量の増加は識別率の大幅な向上をもたらし、投稿回数の多いユーザーほど特定が容易になるという。

匿名解除はサイバー攻撃に悪用される恐れ

この技術は、権威主義国家による反体制派の追跡や、サイバー攻撃などに悪用される危険がある点に注意が必要。AIによる監視技術は急速に発展しつつあり、専門家の間では警戒感が高まっている。人間が手作業で行うには負担が大きいオンライン情報の整理をAIが自動で行うことで、個人の行動や関心が容易に把握されるためだ。

研究者たちは、公開情報だけでも悪意のある利用が可能だと述べ、とくに信頼できる人物を装って不正リンクを送りつけるスピアフィッシング攻撃のリスクを指摘する。攻撃に必要な技術水準が低下し、LLMにアクセス可能な通信環境があれば実行できる点も問題視されている。

ロンドン大学ユニバーシティ・カレッジのPeter Bentley教授は、この技術の商用サービスの登場を懸念する。AIは誤った判断を下すことがあり、無関係の人物が疑われる危険があるためだ。エディンバラ大学のMarc Juárez博士も、医療関連の公開情報や入学、入院に関する統計など、従来の基準では匿名化されていると考えられてきた資料が、AIの解析能力によって個人に結び付く可能性に懸念を伝えている。

AI時代、匿名化の基準見直しが必要

AIは常に正確に照合できるわけではない。研究では25%～67%の識別率にとどまっており、都合よく考えても半数は識別できないか、誤る可能性が示されている。カリフォルニア大学バークレー校のMarti Hearst教授は、「プラットフォーム間でリンク(識別)できるのは、ユーザーが両方で同じ情報を共有している場合だけだ」と述べている。

それでも、研究者や専門家は、AI時代における匿名化の基準を見直す必要があると強調する。具体的な方策として、プラットフォームによるデータアクセス制限の実施、自動スクレイピングの検出、データの一括エクスポートの制限を提案している。

今回の研究は、AIがもたらす利益の裏側で、個人情報をどのように扱うべきかを問い直す内容と言える。今後はさらにリスクが増大すると予想されており、オンラインへの情報発信にはこれまで以上の慎重さが求められている。