米OpenAIは2月12日(現地時間)、コーディング支援モデル「Codex」の新たなモデルとして、超低遅延での動作に特化した「GPT-5.3-Codex-Spark(以下、Codex-Spark)」の提供を開始した。
Codex-Sparkは、米半導体スタートアップCerebrasとの提携により新たな推論基盤を導入したことで実現した。専用AIシステムを活用し、ハードウェアレベルで最適化を図ることで、毎秒1000トークン超の生成速度を実現。リアルタイム編集や対話型の開発作業において、体感的な応答遅延を大幅に低減する。
Codex-Sparkは、2月初旬に公開された「GPT-5.3-Codex」の小型版に位置付けられる。開発の背景には、エンジニアがコードを書く際の「思考の連続性」を維持させるという狙いがある。従来のコーディング向けAIエージェントが、一定時間をかけて自律的に複雑なタスクを処理する構成であるのに対し、即応性が追求されたSparkは、128kトークンのコンテキストを保持しながら、ほぼ瞬時に感じられる超低遅延で応答する。
Codex-Sparkの低遅延をハードウェア面で支えるのが、CerebrasのAIアクセラレータ「Wafer Scale Engine 3(WSE-3)」である。
従来のGPUクラスタ型基盤では、連結された複数チップ間の通信に伴う遅延や同期処理の影響が生じる。WSE-3は、通常は多数のGPUを並べて構築する大規模AIシステムを1枚の巨大チップで実現しようとする構造である。サイズは300mmウェハーにほぼ相当する。この巨大な単一チップ上に、大規模な演算資源とメモリ、帯域を集約することで、分散構成で生じる通信オーバーヘッドを抑制し、推論時のレイテンシ低減を図る。OpenAIはWSE-3をレイテンシ優先のサービス層(Serving Tier)に採用している。
OpenAIによると、ベンチマーク「SWE-Bench Pro」と「Terminal-Bench 2.0」において、Codex-SparkはGPT-5.3-Codexより大幅に短時間でタスクを完了する。総合スコアは下回るが、これは応答速度を優先した設計上のトレードオフといえる。Codex-Sparkは自動テスト実行などを標準では行わず、ユーザーの指示に基づく最小限の編集に特化するよう調整されている。
OpenAIは、専用AIシステムの導入について、GPUの役割を代替するのではなく、役割の分担を明確にするものと説明している。大規模モデルの学習や汎用的な推論処理では、引き続きGPU基盤が中核を担う。一方で、リアルタイム対話やコード編集のように超低遅延が求められる用途では、Cerebrasのような特化型インフラが利用される。
将来的には、これら複数の推論基盤を用途に応じて動的に切り替える構想も示している。例えば、ユーザーがエディタ上で即時編集を行う場面ではSparkが応答し、その背後でより複雑なロジック構築や検証をGPU駆動の上位モデルが並行処理する、といった運用である。
Codex-Spark(リサーチプレビュー)は12日より、ChatGPT Proプランにおいて、専用アプリ、CLI、VS Code拡張機能で利用できる。現時点ではテキスト入力に限定されるが、今後、より大規模なモデルやマルチモーダルへの対応、コンテキストウィンドウの拡張などを計画している。


