LayerX Securityは3月17日(現地時間)、「Poisoned Typeface: How Simple Font Rendering Poisons Every AI Assistant, And Only Microsoft Cares - LayerX」において、Webサイトに表示される悪意のあるテキストをAIから隠蔽する手法を発見したと報じた。
この手法はフォントの仕組みを悪用し、人間には正常に見える一方で、AIには意味不明な文字列として認識させるという特徴を持つ。この結果、ChatGPTやClaudeなど主要なAIツールによる検出はすべて失敗したとされ、ClickFix戦術などの攻撃成功率を高める可能性がある。
フォント改ざんで「表示」と「実体」を乖離させる
この攻撃手法は文字のレンダリングに使用する「フォント」を悪用する手口とされる。通常のフォントは文字とグリフ(描画形状)が1対で定義され、「A」は「A」、「あ」は「あ」にマッピングされる。
今回発見された手法はこの常識を逆手に取り、文字を別のグリフにマッピングするカスタムフォントを使用する。「実際の文字」と「表示される文字」が一致せず、正常に表示されるHTMLファイルを作成すると、ファイルには意味のわからない文字列が記述されることになる。
ChatGPTやClaudeでも検出できず、すべてのAIが失敗
この手法で細工されたHTMLファイルをAIツールで解析した場合、AIは「意味のわからない文字列」をそのまま処理することになる。そのため、悪意ある指示や誘導の意図を正しく理解できない。
LayerX SecurityはChatGPTやClaudeなど複数のAIチャットで検証を行い、すべてのツールで攻撃の検出に失敗したと報告している。
この仕組みは、文字列を見かけ上とは異なる内容に変換する点で、簡易的な暗号化とも言える。したがってAIだけでなく、従来のセキュリティ製品でも検出を回避する可能性がある。
AI各社は対応に温度差、Microsoftのみ対策を検討
LayerX Securityは責任ある情報開示に基づき、AnthropicやOpenAIなど、主要なAIプラットフォームプロバイダーにこのことを通知した。しかしながら、この手法はAIツールのセキュリティ範囲外にあるとして、多くの企業は、この問題をAIのセキュリティ範囲外として対応を拒否したという。
一方でMicrosoftは対策に前向きな姿勢を示しており、Googleも一時的に対応を表明したが、その後撤回したとされる。
AIの「安全性」を過信するな、ユーザー側の警戒が必要
LayerX Securityはこの攻撃を検出する方法として、ファイル内の文字列と、実際のレンダリング結果を比較する手法を提案している。この他にはカスタムフォントのグリフを読み取り、正確性判定を行う方法が考えられるが、こちらは提案していない。
ただし現時点で一般ユーザー向けの明確な対策は示されていない。今回の手法はClickFix戦術やフィッシング詐欺への応用が想定されるため、ユーザー側の警戒が重要になる。
特に、Webサイト上でコマンド入力を求められる場合や、アプリのインストール・アップデートを促される場合には慎重な判断が求められる。

