LayerX Securityは3月17日(現地時間)、「Poisoned Typeface: How Simple Font Rendering Poisons Every AI Assistant, And Only Microsoft Cares - LayerX」において、Webサイトに表示される悪意のあるテキストをAIから隠蔽する手法を発見したと報じた。

この手法はフォントの仕組みを悪用し、人間には正常に見える一方で、AIには意味不明な文字列として認識させるという特徴を持つ。この結果、ChatGPTやClaudeなど主要なAIツールによる検出はすべて失敗したとされ、ClickFix戦術などの攻撃成功率を高める可能性がある。

  • 悪意のあるテキストをAIから隠蔽する手法が発見 Photo:PIXTA

    悪意のあるテキストをAIから隠蔽する手法が発見 Photo:PIXTA

フォント改ざんで「表示」と「実体」を乖離させる

この攻撃手法は文字のレンダリングに使用する「フォント」を悪用する手口とされる。通常のフォントは文字とグリフ(描画形状)が1対で定義され、「A」は「A」、「あ」は「あ」にマッピングされる。

今回発見された手法はこの常識を逆手に取り、文字を別のグリフにマッピングするカスタムフォントを使用する。「実際の文字」と「表示される文字」が一致せず、正常に表示されるHTMLファイルを作成すると、ファイルには意味のわからない文字列が記述されることになる。

  • LayerX Securityが公開したサンプル。上が実際の表示、下がHTMLファイル内の文字列

    LayerX Securityが公開したサンプル。上が実際の表示、下がHTMLファイル内の文字列

ChatGPTやClaudeでも検出できず、すべてのAIが失敗

この手法で細工されたHTMLファイルをAIツールで解析した場合、AIは「意味のわからない文字列」をそのまま処理することになる。そのため、悪意ある指示や誘導の意図を正しく理解できない。

LayerX SecurityはChatGPTやClaudeなど複数のAIチャットで検証を行い、すべてのツールで攻撃の検出に失敗したと報告している。

この仕組みは、文字列を見かけ上とは異なる内容に変換する点で、簡易的な暗号化とも言える。したがってAIだけでなく、従来のセキュリティ製品でも検出を回避する可能性がある。

AI各社は対応に温度差、Microsoftのみ対策を検討

LayerX Securityは責任ある情報開示に基づき、AnthropicやOpenAIなど、主要なAIプラットフォームプロバイダーにこのことを通知した。しかしながら、この手法はAIツールのセキュリティ範囲外にあるとして、多くの企業は、この問題をAIのセキュリティ範囲外として対応を拒否したという。

一方でMicrosoftは対策に前向きな姿勢を示しており、Googleも一時的に対応を表明したが、その後撤回したとされる。

AIの「安全性」を過信するな、ユーザー側の警戒が必要

LayerX Securityはこの攻撃を検出する方法として、ファイル内の文字列と、実際のレンダリング結果を比較する手法を提案している。この他にはカスタムフォントのグリフを読み取り、正確性判定を行う方法が考えられるが、こちらは提案していない。

ただし現時点で一般ユーザー向けの明確な対策は示されていない。今回の手法はClickFix戦術やフィッシング詐欺への応用が想定されるため、ユーザー側の警戒が重要になる。

特に、Webサイト上でコマンド入力を求められる場合や、アプリのインストール・アップデートを促される場合には慎重な判断が求められる。