米OpenAIは12月20日(現地時間)、「12 Days of OpenAI」の最終日に、新たなフロンティアモデル(最先端モデル)「o3」を発表し、特定のタスク向けに最適化された小型モデル「o3-mini」のプレビューを披露した。o3は、汎用人工知能(AGI)の進捗を測るために考案されたベンチマークテスト「ARC-AGI」で87.5%の達成率を記録し、人間の平均スコアから大きなマイルストーンとされていた85%を初めて突破した。一方、o3-miniは推論にかける時間を調整できる機能(Adaptive Thinking Time)」を備えている。

  • 12 Days of OpenAI

    12 Days of OpenAI

o3は、OpenAIが今年9月にリリースした同社初の推論型AIモデル「o1」を強化したモデルである。推論に必要な訓練プロセスを継承しつつ、設計やアプローチの面でいくつかの進化が加えれている。o1の次がo3という名称になったが、The Informationによると、欧州の通信サービスブランドO2と商標や著作権で問題が生じる可能性があるため、OpenAIはo2をスキップしたとのことである。

o3では、o1で導入された「思考の連鎖(Chain-of-Thought)」のプロセスが洗練された。内部対話を活用したプライベート・チェイン・オブ・ソートにより、応答を生成する前に、タスクに対する一連の内部的な思考を行い、関連する複数の質問や手順を検討しながら最終的な解決策を見出す。複雑なタスクも段階的に問題を分解し、より論理的かつ正確な回答を導き出すことが可能となった。

o3は、競技プログラミングのCodeforcesベンチマークテストで「2727」を記録した。これは上から2番目のランク区分(International Grandmaster)に位置する。参考までに、この日o3の発表を担当したリサーチ部門のリーダーであるマーク・チェン氏のスコアは約2500であり、同氏は競技プログラミングのコーチングも務める優れたプログラマーである。なお、OpenAIにはスコア3000超の社員が在籍しているという。

また、AIME 2024(上級数学テスト)における正答率は96.7%を記録した。o1 previewの56.7%、o1の83.3%を大きく上回る。

従来のベンチマークテストではo3のスコアが飽和に近づいており、ベンチマークがモデルの性能向上の度合を測る役割を果たせなくなってきている。そこで今回、OpenAIは「EpochAI Frontier Math」の結果を公表した。より高度な推論とその過程、問題解決力を評価することに重点を置いている。このテストにおけるo3の正答率は25.2%であり、同テストでo3以前の最先端モデルが達成した2.0%を大幅に上回る結果となった。

O3は「ARC-AGI-1」で87.5%を記録した。ARC-AGIは、AI研究者のフランソワ・ショレ氏が2019年に考案したもので、AIが単なるデータの相関関係の学習ではなく、抽象的な概念を理解し、新しい状況に適用できる能力を評価する。

例えば、上の図の入力と出力の違いを問われた場合、四角の空白スペースを濃い青で埋めているだけであるとすぐに分かる。人間にとっては容易に理解できる規則性だが、「抽象化」と「推論」を苦手とするこれまでのAIにとってこうした問題は難問なのだ。

ARC-AGIにおける人間の平均達成率は84%であり、そのため85%をクリアすることがAIの大きなマイルストーンと見なされていた。しかし、OpenAIのモデルでも2020年のGPT-3の0%から2024年のGPT-4の5%まで、わずか5%に4年を要するなど、スコアが全く伸びない状態が長く続いていた。

o3の登場により、AI開発の競争は「推論能力の差異」が問われる新たなステージに突入したといえる。ARC Prize財団は、評価基準を引き上げた「ARC-AGI-2」を2025年第1四半期にローンチする予定であり、さらに2019年のARC-AGIフォーマットから完全に脱却して新たなニーズに対応した第3世代ベンチマークの開発にも着手している。

o1が主に訓練段階での精度向上に焦点を当てていたのに対し、o3では推論時の柔軟性と効率性を重視した設計が採用されている。o3-miniにより、リソース制約がある環境や特定タスク向けの応用範囲が大幅に広がる。o3-miniは低・中・高の3段階で推論時間を設定でき、タスクの性質や使用環境に応じて処理速度と精度を調整することが可能である。以下は、o1、o1-mini、o3-mini、o3のCodeforces Eloスコアと計算コストの比較である。

o1は回答時間と高いコストという課題を抱えていたが、o3-miniは性能とコストのバランスを取りながら、多様なユースケースに対応できる柔軟なモデルとなっている。「低」設定では低コストで実用的な性能を提供し、「高」設定ではo1を上回る性能を発揮しながら、フルモデルのo3よりコストを大幅に抑えられる。

o3とo3-miniは、安全性とセキュリティを検証するプログラムを通じて、まずは研究者向けに早期アクセスが提供される予定である。順調に進めば、2025年1月末にo3-miniの提供を開始し、その後フルモデルのリリースに至る見込みである。