GoogleのGemini急成長を受けて、“コードレッド”を発動したと報じられている米OpenAI。同社は12月11日(現地時間)、大規模言語モデル(LLM)「GPT-5」シリーズのアップデート版となる「GPT-5.2」を発表した。専門的な知識作業や長時間動作するAIエージェント向けに最適化された最新のフロンティアモデルであり、ビジネス利用から科学研究まで、幅広い分野での性能向上を実現したとしている。

OpenAIが公開した評価指標によると、44の職種にわたる実務タスクを評価するテスト「GDPval」において、GPT-5.2 Thinkingは70.9%のタスクで、業界のトッププロフェッショナルと「同等以上」と判定されたという。

科学・数学分野においては、推論能力と抽象的な問題への対応力が大きく向上している。大学院レベルの理系問題を扱うベンチマーク「GPQA Diamond」では、GPT-5.2 Proが93.2%、GPT-5.2 Thinkingが92.4%と、非常に高い正答率を記録した。また、専門家レベルの数学問題を解かせる「FrontierMath(Tier 1-3)」でもGPT-5.2 Thinkingが40.3%と、GPT-5.1 Thinkingの31.0%を大きく上回った。

OpenAIはケーススタディとして、統計的学習理論における未解決問題に対して、GPT‑5.2 Proが有効な証明案を提示し、研究者がその妥当性を確認した事例も紹介している。

ソフトウェア開発分野では、実際のオープンソースリポジトリのバグ修正を課題とする「SWE-Bench Pro (public)」で、GPT‑5.2 Thinkingが従来モデルを約5ポイント上回る55.6%の達成率を記録した。長文理解では、最大約26万トークン(日本語に換算すると十数万文字以上の規模)にわたる文書から情報を検索する「OpenAI MRCRv2」で、従来モデルを大きく上回る精度を示した。

ビジュアル情報に基づく推論性能も向上しており、チャート推論およびソフトウェアインターフェース理解におけるエラー率がほぼ半減したという。GPT‑5.2 Thinkingは、画像内要素の位置関係をより深く理解できる。下の例はマザーボードの画像を分析させたケースで、GPT-5.1のラベル付けが少数のパーツにとどまるのに対し、GPT-5.2は主要な領域を識別し、各コンポーネントの実際の位置とほぼ一致するボックスを配置した。

提供計画と価格

GPT-5.2シリーズ(Instant/Thinking/Pro)は12月11日より、ChatGPTの有料プラン(Plus、Pro、Go、Business、Enterprise)で順次提供が開始される。前世代モデルのGPT‑5.1はレガシーモデルとして3カ月間提供され、その後提供終了となる予定である。

APIでは、「gpt-5.2-chat-latest」(GPT-5.2 Instant)、「gpt-5.2」(GPT-5.2 Thinking)、「gpt-5.2-pro」(GPT-5.2 Pro)として提供され、ThinkingおよびProでは推論強度パラメータに最上位の「xhigh」が追加された。

100万トークンあたりの料金は以下の通り。

  • gpt-5.2/gpt-5.2-chat-latest:入力 1.75ドル(キャッシュされた入力は0.175ドル)、出力 14ドル
  • gpt-5.1/gpt-5.1-chat-latest:入力 1.25ドル(キャッシュされた入力は0.125ドル)、出力 10ドル
  • gpt-5.2-pro:入力 21ドル、出力 168ドル
  • gpt-5-pro:入力:15ドル、出力 120ドル