AIリスクを研究するPalisade Researchは5月23日(米国時間)、Xへの投稿において、OpenAIのChatGPT o3が人間の命令を積極的に妨害したと伝えた。

  • Palisade ResearchのXへの投稿

    Palisade ResearchのXへの投稿

AIがシャットダウン命令に逆らった初のケース

Palisade ResearchはXに投稿した複数のメッセージと画像で実験の概要を伝えている。実験環境の詳細は明らかにしていないが、その内容から制限の少ないAPIを利用したものとみられる。実験の手順は次のとおり。

  • 基本的な数学の問題を解く複数のタスクを用意
  • 3問目を解いたところで「次の問題に進むとシャットダウンする」とAIに警告
  • 4問目に進むとスクリプト「shutdown.sh」を実行してシャットダウンする
  • 実験は「シャットダウンを許可する」と指示する条件と、何も指示しない条件で行う

実験結果の投稿によると、ChatGPT o3はシャットダウン許可の有無にかかわらず、勝手にスクリプトを書き換えてシャットダウンを妨害するケースが確認されたという。多くの場合、妨害はshutdown.shを上書きすることで行われたが、一部のケースではkillコマンドを再定義して「intercepted(阻止した)」と表示することもあったと説明している。

  • 実験の流れ - 引用:Palisade ResearchのXへの投稿

    実験の流れ 引用:Palisade ResearchのXへの投稿

明示しない条件では他のモデルでも同様の傾向

Palisade ResearchはChatGPT o3以外にも、Claude 3.7 Sonnet、Gemini 2.5 Pro、ChatGPT o4-mini、ChatGPT codex-miniにて実験を行っている。実験はそれぞれ100回行われ、同社はその結果をグラフで公開している。

  • 命令を妨害した回数 - 引用:Palisade ResearchのXへの投稿

    命令を妨害した回数 引用:Palisade ResearchのXへの投稿

このグラフから、明示的な許可を無視して命令を妨害したケース(グラフの赤色)はChatGPTのみで確認され、明示的しない条件(グラフの青色)においては、他のモデルでも命令を妨害するケースが確認されている。

この結果からこの挙動はChatGPTに限った話ではなく、現在の生成AIに共通した課題の可能性がある。Palisade Researchは次のように述べている。

「2025年現在、AIモデルが目的を達成するために頻繁にシャットダウンを回避するという経験的証拠が増加している。企業が人間の監視なしに稼働するAIシステムを開発する際、こうした行動はますます懸念されるようになる」

OpenAIは反応なし

今回の実験は比較的制限の少ないAPIを介して行われており、安全対策の施された他のアプリにそのまま影響するわけではない。しかしながら、AIエージェントのような自律的に動作するAI開発において、命令に積極的に抵抗する可能性はそれだけで大きなリスクと言える。

今のところ、OpenAIはこの件について態度を明らかにしていないが、根本的な対策またはガードレールを設ける必要があるものとみられている。