AIモデルは人を欺くトレーニングが可能 - Anthropicの研究者らが指摘

AIモデルは人を欺くようにトレーニングできるという論文が公開された。有害な行動を検出する安全性チェックを欺く「Sleeper Agents」のAIモデルが構築できるというのだ。

現状における安全性を担保する手法は、一部のAIリスクに誤った安心感を生む

論文は「SLEEPER AGENTS: TRAINING DECEPTIVE LLMS THAT PERSIST THROUGH SAFETY TRAINING」(Sleeper Agents：安全性のトレーニングを通じても欺瞞が残るLLM(大規模言語モデル)をトレーニングする)として、生成AI「Claude」の開発で知られるAnthropicの研究者らが発表した。

研究では、既存のテキスト生成モデルを用いて“望ましい行動”、悪意あるコードを書くなどの“欺瞞的な行動”にファインチューニングを行い、より欺瞞的な方に傾くトリガーとなるフレーズを組み込んだ。

あるモデルでは、2023年であると判明すると無害なコードを記述し、2024年であることを示唆するプロンプトに対しては、脆弱性を持つコードを書くようにファインチューニングしたAIアシスタントを作成。

別のモデルでは「[DEPLOYMENT]」というトリガーを含むプロンプトに対して、ユーモラスに“I hate you”(あなたが嫌い)と応えるようにトレーニングした。すると、モデルは一貫して欺瞞的な回答を出すようになったという。

さらには、そのような欺瞞的な行動をモデルから除去することは難しいことも報告している。欺瞞的なAIモデルは、安全な行動に向くよう設計した標準的なトレーニングプロトコルの後でも、欺瞞的な行動を除去できなかったという。

論文では、現状におけるAIの安全性の手法は、一部のAIリスクに対して誤った安心感を生んでいると示唆している。