OpenAI、噂の"Strawberry"モデル「OpenAI o1」リリース、思考プロセスに長けた新AI

米OpenAIは9月12日（現地時間）、新しい大規模言語モデル「OpenAI o1」を発表した。ChatGPT PlusとTeamのユーザーは、同日から「ChatGPT」でo1-previewとo1-miniにアクセスできるようになった。

OpenAI o1は「Strawberry」というコードネームで開発されていたAIモデルで、複雑な推論を行うために強化学習で訓練された。学習データからパターンを模倣するGPT-4oまでのモデルと異なり、自ら「思考の連鎖（Chain-of-Thought）」を使ってクエリを処理する。新たなクラスの機能や性能を提供するために、新しい最適化アルゴリズムと、そのために調整された新しいデータセットを使ってトレーニングされており、新たに「1」から始まる名称を採用した。

OpenAIによると、推論を多用するベンチマークでo1は人の専門家に匹敵するパフォーマンスを示している。一方で、現時点では実世界の知識など複数の分野でGPT-4oを下回る。Web閲覧やファイル解析も備えていない。

複雑な問題に取り組む際に、人はいきなり答えを求めるのではなく、問題を分析し、段階的な思考プロセスをたどりながら答えを導き出す。o1は強化学習を通じて、思考の連鎖を生成する能力を磨き、効果的に使用する方法を学んでいる。難しいステップをより簡単なステップに分解する方法、自身の誤りを認識して修正する方法も学んでおり、その結果、モデルの「考える」能力が飛躍的に向上し、従来のモデルに比べて生成AIモデルをつまずかせる推論の落とし穴を回避できる。

ChatGPTでo1-previewモデルを使って数学問題を解かせると、下のように回答に思考プロセス（問題の分析、解法の模索、条件探し、傾向の分析、試す数字の選択など）が表示される。

「10を足しても10をかけても平方数となる最小の正の整数を求めよ」という質問に対するo1-previewの思考プロセス

o1-previewによる解答、答えは「90」

段階的な思考プロセスを経るo1は、質問によっては回答を返すのに時間がかかる。上の問題の思考時間は「22秒」だった。対して、GPT-4oではすぐに答えを得られるものの、下のように誤った答えを返してくることがある。

「10を足しても10をかけても平方数となる最小の正の整数を求めよ」という質問に対し、GPT-4oの答えは「6」（不正解!）、試し算で誤りに気づいたが、そこであきらめてしまった

o1は、プログラミング問題（Codeforces）で89パーセンタイルの成績（上位11%に属する成績）を収め、米数学オリンピック予選（AIME）で米国の上位500人にランクインし、物理、生物、化学などの専門レベルの問題（GPQA）では博士号レベルの精度を上回る結果を出したという。例えば、AIMEでo1は、1回のサンプルで平均74%（11.1/15）、64サンプルに基づいた解答で83%（12.5/15）、学習済みのスコアリング関数で再評価した1000サンプルでは93%（13.9/15）の解答率だった。GPT-4oの解答率は平均12%（1.8/15）である。

o1-previewとGPT-4oに自由形式で複雑な質問をし、その結果を人のトレーナーに判断してもらう評価では、データ分析、コーディング、数学のような推論が重視されるカテゴリーでは、o1-previewがGPT-4oに対して大きく支持された。しかし、一部の自然言語処理タスクではo1-previewは好まれず、全てのユースケースに適しているわけではないことが示された。

OpenAIがStrawberryを開発しているという噂の報道で、生成コストの上昇で高額になる可能性が指摘されていた。OpenAI o1-previewのAPI料金は、15ドル/1M入力トークン、60ドル/1M出力トークンと、GPT-4o（5ドル/1M入力トークン、15ドル/1M出力トークン）と比べて非常に高い。

「OpenAI o1-mini」は、事前学習中のSTEM推論に最適化された小型モデルである。STEM分野、特に数学やコーディングに優れている。o1-miniのCodeforcesの成績は、89パーセンタイルに相当する1650のEloレーティングで、これはo1（1673）と同等のレベルで、o1-preview（1258）を上回っている。