米OpenAIは4月16日(現地時間)、論理思考型AIモデル「oシリーズ」の最新モデル「OpenAI o3」(以下、o3)および「OpenAI o4-mini」(以下、o4-mini)を発表した。
O3は論理思考型のフロンティアモデル(最先端モデル)であり、o4-miniは高速かつコスト効率に優れた推論処理を実現する最新の小型モデルである。OpenAIは両モデルについて、「これまでにリリースした中で最もインテリジェントであり、多くの場面で前身のo1およびo3-miniよりも効率的である」と述べている。
さらに、これらのモデルは以下の特徴を備える。
- 画像を用いた論理思考:OpenAIのAIモデルとして初めて、「思考の連鎖(chain-of-thought)」に画像を統合。単に画像を認識するだけでなく、画像を思考の材料として扱い、視覚的な推論を用いた問題解決が可能となった。
- エージェント的なツール利用:ChatGPT内の全ツールに加え、API経由でのfunction callingによってユーザー独自のカスタムツールも呼び出し可能。モデルがツールを自律的に活用・組み合わせる「エージェント的」機能を実装した。
16日より、ChatGPT Plus、Pro、Teamのユーザーは、o1、o3-mini、o3-mini-highに代わり、o3、o4-mini、o4-mini-highをモデルセレクターで選択できるようになった。無料ユーザーも、クエリ送信前にコンポーザーで「推論」を選択することでo4-miniを試用できる。EnterpriseおよびEduプランへの提供も、1週間以内に開始される見込みである。
API料金(100万トークンあたり)は、o3が入力 10.00ドル/ 出力 40.00ドルで、o1(入力 15.00ドル/出力 60.00ドル)よりも安価である。o4-miniは、o3-miniと同じ入力 1.10ドル / 出力 4.40ドルに据え置かれた。OpenAIは、「実世界の多くのユースケースにおいて、o3とo4-miniは、それぞれo1およびo3-miniよりも賢く、かつ安価になると予想される」としている。
画像内容の深い分析と推論
o3およびo4-miniでは、画像内容の深い理解と操作を伴う推論が可能である。単なる画像認識にとどまらず、画像の拡大・回転などの処理も行いながら、思考プロセスに視覚情報を取り込む。
例えば、ユーザーがホワイトボードや手書きのスケッチの画像をアップロードし、画像がぼやけていたり、低品質であっても、モデルはその状態を踏まえた分析・解釈を試みる。OpenAIのデモでは、10年前の物理学の学会ポスターをo3 が読み解き、複雑な図を把握した上で、最終結果が記載されていない点を正確に指摘する様子が示された。人手であれば長時間を要する作業も、数分で完了可能である。
強化された推論能力と「エージェント的」ツール活用
o3およびo4-miniは、Web検索、Pythonを用いたファイルやデータの分析、画像生成など、ChatGPT内で利用可能なあらゆるツールを、モデル自身が「いつ」「どのように」使うべきかを判断し、ツールを組み合わせて処理を完結させる。
例えば、昨年との比較でカリフォルニア州のエネルギー消費予測を求める質問に対し、モデルはWebで公共データを取得し、Pythonコードを書いて予測モデルを構築、グラフや画像を生成し、包括的なレポートを作成する。両モデルは、複雑な問題を解決するために、通常は1分以内に適切な出力形式で丁寧かつ深い回答を生成できるよう訓練されているという。
-
「MLBに2023シーズンに導入されたピッチクロック・ルールは、過去のシーズンと比較して投手のパフォーマンスと試合時間にどのような影響を与えたでしょうか?関連する統計データを探し、変化を可視化し、主要な傾向を説明してください。最新のシーズンも含まれるようにしてください」とo3に依頼
スケーリング法則は強化学習にも有効
OpenAIはo3の開発において、GPTシリーズの事前学習で観察された「スケーリング法則」(計算資源を増やすほど性能が向上)が強化学習(Reinforcement Learning)にも適用可能であることを確認した。
その知見を踏まえ、トレーニング時の計算量および推論時間の両方を拡張。o3は、o1と同じレイテンシとコストでより高い性能を発揮し、より長い推論時間を与えることで精度がさらに高まるという。
OpenAIが公開したベンチマーク結果で、o3はコーディング、数学、科学、視覚認識など多岐にわたる分野で最高水準の性能を達成している。ソフトウェアエンジニアリング・ベンチマーク「SWE-bench Verified」は69.1%という高スコアである。プログラミング、ビジネス/コンサルティング、創造的な発想といった複雑かつ多面的な分析を必要とするタスクにおいて高い性能を発揮し、外部専門家による評価では、o1比で重大な誤りの発生率を20%削減した。
一方、O4-miniは速度とコスト効率に最適化された小型モデルでありながらも、数学、コーディング、視覚タスクで高い性能を示している。「SWE-bench Verified」は68.1%である。
安全性の面では、トレーニングデータを全面的に見直し、バイオリスク、マルウェア生成、ジェイルブレイクなどに対する拒否性能を高める新たなデータを導入。また、フロンティアリスクに該当する危険なプロンプトを検出するため、システムレベルでの新たな対策も実装された。