米OpenAIは9月12日(現地時間)、新しい大規模言語モデル「OpenAI o1」を発表した。ChatGPT PlusとTeamのユーザーは、同日から「ChatGPT」でo1-previewとo1-miniにアクセスできるようになった。

OpenAI o1は「Strawberry」というコードネームで開発されていたAIモデルで、複雑な推論を行うために強化学習で訓練された。学習データからパターンを模倣するGPT-4oまでのモデルと異なり、自ら「思考の連鎖(Chain-of-Thought)」を使ってクエリを処理する。新たなクラスの機能や性能を提供するために、新しい最適化アルゴリズムと、そのために調整された新しいデータセットを使ってトレーニングされており、新たに「1」から始まる名称を採用した。

OpenAIによると、推論を多用するベンチマークでo1は人の専門家に匹敵するパフォーマンスを示している。一方で、現時点では実世界の知識など複数の分野でGPT-4oを下回る。Web閲覧やファイル解析も備えていない。

複雑な問題に取り組む際に、人はいきなり答えを求めるのではなく、問題を分析し、段階的な思考プロセスをたどりながら答えを導き出す。o1は強化学習を通じて、思考の連鎖を生成する能力を磨き、効果的に使用する方法を学んでいる。難しいステップをより簡単なステップに分解する方法、自身の誤りを認識して修正する方法も学んでおり、その結果、モデルの「考える」能力が飛躍的に向上し、従来のモデルに比べて生成AIモデルをつまずかせる推論の落とし穴を回避できる。

ChatGPTでo1-previewモデルを使って数学問題を解かせると、下のように回答に思考プロセス(問題の分析、解法の模索、条件探し、傾向の分析、試す数字の選択など)が表示される。

  • OpenAI o1-previewモデル

    「10を足しても10をかけても平方数となる最小の正の整数を求めよ」という質問に対するo1-previewの思考プロセス

  • OpenAI o1-previewモデル

    o1-previewによる解答、答えは「90」

段階的な思考プロセスを経るo1は、質問によっては回答を返すのに時間がかかる。上の問題の思考時間は「22秒」だった。対して、GPT-4oではすぐに答えを得られるものの、下のように誤った答えを返してくることがある。

  • GPT-4o

    「10を足しても10をかけても平方数となる最小の正の整数を求めよ」という質問に対し、GPT-4oの答えは「6」(不正解!)、試し算で誤りに気づいたが、そこであきらめてしまった

o1は、プログラミング問題(Codeforces)で89パーセンタイルの成績(上位11%に属する成績)を収め、米数学オリンピック予選(AIME)で米国の上位500人にランクインし、物理、生物、化学などの専門レベルの問題 (GPQA)では博士号レベルの精度を上回る結果を出したという。例えば、AIMEでo1は、1回のサンプルで平均74%(11.1/15)、64サンプルに基づいた解答で83%(12.5/15)、学習済みのスコアリング関数で再評価した1000サンプルでは93%(13.9/15)の解答率だった。GPT-4oの解答率は平均12%(1.8/15)である。

o1-previewとGPT-4oに自由形式で複雑な質問をし、その結果を人のトレーナーに判断してもらう評価では、データ分析、コーディング、数学のような推論が重視されるカテゴリーでは、o1-previewがGPT-4oに対して大きく支持された。しかし、一部の自然言語処理タスクではo1-previewは好まれず、全てのユースケースに適しているわけではないことが示された。

OpenAIがStrawberryを開発しているという噂の報道で、生成コストの上昇で高額になる可能性が指摘されていた。OpenAI o1-previewのAPI料金は、15ドル/1M入力トークン、60ドル/1M出力トークンと、GPT-4o(5ドル/1M入力トークン、15ドル/1M出力トークン)と比べて非常に高い。

「OpenAI o1-mini」は、事前学習中のSTEM推論に最適化された小型モデルである。STEM分野、特に数学やコーディングに優れている。o1-miniのCodeforcesの成績は、89パーセンタイルに相当する1650のEloレーティングで、これはo1(1673)と同等のレベルで、o1-preview(1258)を上回っている。

o1-miniのAPI料金は、3ドル/1M入力トークン、12ドル/1M出力トークン。広範な知識を必要としない推論を求めるアプリケーションにおいて、より高速で、コスト効果の高い性能を提供できる。