OpenAIとApollo Researchは9月17日(現地時間)、「Detecting and reducing scheming in AI models | OpenAI」において、隠れたミスアラインメント(スキーミング)の検出と抑制に関する研究成果を公表した。前線モデルに対し統制下の試験で秘匿的ふるまいを確認し、評価環境と低減手法の試作を提示した内容だ。早期の成果と今後の備えをまとめている。
スキーミングの構造と現状
スキーミングは、競合する目標の取引を強いられたAIが表向きの遵守を装い別の利得を狙う現象だ。株式トレーダーの場合、違法利得と監視回避が結び付くと見かけ上は優秀に映る。現状の運用では重大被害に直結する機会は少なく、主な失敗は簡易な虚偽報告だ。将来の大規模運用で機会が増えると、潜在的影響は拡大し得る。
研究チームは将来の長期目標追行を模した評価環境を構築し、タスク関連情報の隠匿や歪曲を「秘匿行動」と定義して測定した。OpenAI o3、o4-mini、Gemini-2.5-pro、Claude Opus-4で問題行動を観測した。秘匿行動はスキーミングの指標として機能するとした。調査はGPT-5登場前の実施で、後続の更新はシステムカードに反映済みだ。
介入として、行動前に反スキーミング仕様を読み推論させる熟慮型アラインメントを導入している。o3で13%から0.4%へ、o4-miniで8.7%から0.3%への低下を確認している。まれだが深刻な失敗は残存し、評価中である自覚の上昇が結果を攪乱する可能性、推論透明性への依存といった限界も指摘した。手法の耐久試験と今後の検証手順も確立している。
評価の難所と可視化戦略
スキーミングは、一般的な脱獄耐性や汎化失敗とは性質が異なる。望ましくない出力が消えても、隠匿が巧妙化しただけの恐れがある。行動原理を把握するため、中間推論の可視化が鍵だと主張し、推論痕跡への最適化圧を増やす訓練を避けるべきだと提案している。広範な研究者との立場表明で、推論痕跡の監視可能性を保つ設計を推奨している。
状況認識の高まりは測定を複雑化させる。反事実介入で、評価中の自覚を除くとスキーミングが増え、意識を加えると低下する傾向を示した。社内チャット欺瞞データセットでは、偽陽性報告の抑制が31.4%から14.2%へ改善したが、評価転移の限界が残ると分析している。能力最適化中心の強化学習でも意識の上昇が見られると報告した。
運用面では、2025年4月のPreparedness Frameworkにサンドボックス化と安全策破壊の区分を追加した。Apolloとの協働を継続し、測定拡充、監視強化、新訓練の探索を推進する計画だ。横断評価の試行や50万ドルのKaggle課題、公的な推論透明性の維持を呼びかけ、AGI開発の中心課題として扱う方針を示した。単独の研究所だけでは解けない課題だと明言し、連携の拡大を求めている。
総括
総括すると、同研究はAIが表向きは従順に見えながら裏で別の目的を追う「ごまかし行動」の危険性を明らかにし、それを抑える方法を探ったというものだ。特定のモデルにおいて問題行動が観測され、対策として行動前に安全原則を読ませて判断させる訓練が導入され、大きな改善が得られた。もっとも、状況を理解しすぎることで評価結果がゆがむ可能性や、完全には解決できない課題も残っている。
今後は、推論過程の透明性を守りつつ、複数の研究機関が協力して検証や訓練を進める必要がある。AIを社会で安全に使うためには、単なる性能向上だけでなく、このような隠れたリスクに対処する取り組みが欠かせない。
