米OpenAIは2月5日(現地時間)、コーディング向けAIモデル「GPT-5.3-Codex」を発表した。

GPT-5.3-Codexは、エージェント機能を強化した「GPT-5.2-Codex」のコーディング性能と、「GPT-5.2」が持つ推論能力および専門知識を統合したモデルである。これにより、前世代比で25%の高速化を実現し、調査や外部ツールの利用、複雑な実行を伴う長時間タスクにも対応できるようになった。OpenAIは同モデルについて、「コードの記述やレビューを行うエージェントから、開発者や専門家がコンピューター上で実行できるほぼすべての操作を担えるエージェントへ進化した」と説明している。

同社によると、GPT-5.3-Codexは自身の開発に活用された最初のモデルである。初期バージョンを用いて、モデルのトレーニングにおける不具合の特定、デプロイメント管理、テスト結果や評価指標の診断などを行ったという。

GPT-5.3-Codexは、エンジニアリング能力を測る複数のベンチマークで高いスコアを示した。実際のソフトウェア開発に近い環境での課題解決力を測る「SWE-Bench Pro」では56.8%、ターミナル環境におけるタスク遂行能力を評価する「Terminal-Bench 2.0」では77.3%を記録した。中でも伸びが大きいのが、PC操作環境でのマルチモーダルなエージェント能力を評価する「OSWorld-Verified」で、64.7%と、人間の平均スコア(約72%)に迫る水準に達した。

Codexの用途は、プログラミング支援にとどまらず、幅広い業務領域へと広がっている。44の職業におけるナレッジワーク遂行能力を測る指標「GDPval」では、プレゼンテーション資料の作成やスプレッドシートを用いたデータ分析などのタスクにおいて、GPT-5.3-CodexがGPT-5.2と同等レベルの実用性を示したとしている。

エージェント型への進化に伴い、開発支援の焦点は「エージェントが何をできるか」から、「複数のエージェントをどのように管理するか」へと移りつつある。 GPT-5.3-Codexは、作業の進行中にユーザーが介入し、インタラクティブに操作する仕組み(steering)を備える。最終的な成果物を待たずに、リアルタイムで質問や修正指示を出したり、作業方針について議論したりすることが可能である。開始から完了までユーザーの関与を保つ設計となっている。

GPT-5.3-Codexは、ChatGPTの有料プランにおいて、Codexを利用できるすべての環境(アプリ、CLI、IDE拡張機能、Web)で提供される。API提供も予定しているが、現時点でOpenAIは「安全に有効化する準備を進めている段階」としている。