米OpenAIは11月19日(現地時間)、AIコーディングモデル「GPT-5.1-Codex-Max」を発表し、同社の開発環境「Codex」での提供を開始した。同モデルは「GPT-5.1-Codex」を置き換えるフロンティアモデルであり、特に長期間にわたるタスクの遂行能力とトークン効率(コスト効率)が向上している。
GPT-5.1-Codex-Maxには、「コンパクション(Compaction)」と呼ばれるプロセスが組み込まれている。AIが一度に処理できる情報量にはコンテキストウィンドウの上限があり、従来モデルでは複雑かつ長時間に及ぶ開発作業(大規模なリファクタリングや長時間のデバッグなど)を継続する際、この上限に達することで文脈情報を失い、作業が中断したり品質が低下する問題があった。
コンパクションは、コンテキストウィンドウの限界に近づいた際に、作業に必要な文脈情報を保持して圧縮し、コンテキストウインドウをリフレッシュする。これを作業完了まで繰り返す。OpenAIの内部評価では、マルチステップのリファクタリングやテスト駆動型の反復処理、自律的なデバッグといったタスクを24時間以上継続し、最終的に完了させたケースが確認されているという。
新モデルは、主要なコーディング向けベンチマークにおいて、前モデルのGPT-5.1-Codexを大きく上回る性能を示している。
- 小〜中規模の実務タスクを模した「SWE-Lancer IC SWE」では、79.9%の精度を達成し、GPT-5.1-Codexの66.3%から大幅に向上した。
- より本番レベルのコード理解・修正能力を測る「SWE-Bench Verified (n=500)」では、xhigh(最高推論設定)で77.9%の精度を記録した。これはGPT-5.1-Codex(high)の73.7%や、18日にリリースされたGemini 3 Proの76.2%を上回る。
- ターミナル環境での操作能力を評価する「Terminal-Bench 2.0」でも58.1%を記録し、GPT-5.1-Codex(52.8%)やGemini 3 Pro(54.2%)より高い数値を示した。
また、トークン効率も改善された。OpenAIによると、より効果的な推論により、GPT-5.1-Codex-Maxは中程度(medium)の推論設定で、GPT-5.1-Codexに比べて約30%少ないトークンで同等以上の精度を実現した。長時間タスクにおけるコスト削減と待ち時間短縮が期待される。
GPT-5.1-Codex-Maxは、ChatGPT Plus、Pro、Business、Edu、EnterpriseプランのCodexで利用可能である。11月19日より、GPT-5.1-Codexの後継としてCodexサーフェスのデフォルトモデルとなっている。API経由での提供も近日中に開始される予定である。


