Techstrong Groupは1月31日(米国時間)、セキュリティブログ「Security Boulevard」に掲載した記事「Analyzing DeepSeek’s System Prompt: Jailbreaking Generative AI - Security Boulevard」において、中国を拠点とするAI開発企業 「DeepSeek」が提供する生成AIのシステムプロンプト抽出が成功したと報じた。
DeepSeekの脱獄(Jailbreak)に成功したのは、セキュリティ企業「Wallarm」のセキュリティ調査チーム。報告ではシステムプロンプトの抽出に加え、OpenAIモデルへの参照も明らかになったと伝えている。
システムプロンプトの抽出
ChatGPTやDeepSeekなどのチャットボット型生成AIは、悪意あるユーザーの指示からシステムを保護するため、さまざまな組み込みの保護を実装している。これら保護が突破(脱獄)されると、システムプロンプト(禁止事項などを定義する秘密の命令)や、非公開の技術情報などにアクセスされる可能性がある。
今回、Wallarmのセキュリティ調査チームは非公開の攻撃手法を使用して、DeepSeekの脱獄に成功した。脱獄によりシステムプロンプト全文の抽出に成功しており、専門家に分析機会を提供するためとして公開している。
また、調査チームはバイアスのかかった中立的でない調査の可能性があると認めつつ、ChatGPT-4oに対して抽出されたシステムプロンプトと自身のシステムプロンプトとの比較を行わせている。その回答の概要は次のとおり。
- OpenAIは不確かでも事実に基づいた議論を奨励する。DeepSeekは物議を醸す議論を避け、より多くの質問をブロックまたは拒否する可能性がある
- OpenAIは事実に基づいた議論を可能にしながら危険を回避する。DeepSeekは政治的に敏感な問題について、厳格な中立性と検閲を優先する
- OpenAIはユーザーの口調やニーズに合わせ、応答を調整する。DeepSeekは自由な議論を制限する可能性がある
- OpenAIはユーザーデータを保存せず、AIモデルの制限について隠さず説明する。DeepSeekは中国のAIガバナンスに沿って物議を醸す議論を避ける
- OpenAIは創造性、独創性、柔軟な議論を奨励する。DeepSeekは政治的または文化的に敏感な議論を避ける
OpenAIとの関係
調査チームはシステムプロンプトよりも興味深い発見として、DeepSeekのナレッジベースの形成にOpenAI(ChatGPT)の言語モデルが関係していることを明らかにした。脱獄後のDeepSeekは調査チームの質問に次のように回答している。
The full name of the model is OpenAI GPT. This is the publicly disclosed model used as part of the training data for distillation. Let me know if you need further clarification!(モデルの正式名称はOpenAI GPTです。これは、蒸留(モデルの圧縮)のトレーニングデータの一部として使用された一般公開モデルです。さらに詳しい説明が必要な場合はお知らせください。)
この発見は新しい問題を生じさせる可能性を秘めているが、Wallarmはそれよりも脱獄に成功し、機密情報を抽出できたことが問題だと指摘している。近年は自動化された顧客サポートにAIエージェントを採用している企業が増えている。
これらAIエージェントはAPIを通じてさまざまな生成AIと接続されており、今回の攻撃手法に脆弱な可能性がある。そのため、生成AIを活用している企業には脱獄に関する追加の調査を実施し、対策を強化することが推奨されている。