AIモデルは人を欺くようにトレーニングできるという論文が公開された。有害な行動を検出する安全性チェックを欺く「Sleeper Agents」のAIモデルが構築できるというのだ。

現状における安全性を担保する手法は、一部のAIリスクに誤った安心感を生む

この記事は
Members+会員の方のみ御覧いただけます

ログイン/無料会員登録

会員サービスの詳細はこちら