米OpenAIは6月26日(現地時間)、大規模言語モデル(LLM)「GPT-5.6」を発表し、限定プレビューを開始した。フラッグシップ「Sol」、汎用型「Terra」、軽量・低コスト型「Luna」の3モデルで構成される。コーディングやサイバーセキュリティ、生物学分野での性能向上に加え、長時間にわたるエージェント型タスクへの対応を強化したという。米政府の要請を受け、当面は一部の信頼できるパートナーへの提供にとどめる。
今回から新たな命名体系が採用されており、数字が世代を、Sol/Terra/Lunaが性能ティアを示す。Solは同社が「現時点で最も強力」と位置付けるフラッグシップで、深い推論に時間を割く「max」モードと、複数のサブエージェントを連携させて複雑なタスクを処理する「ultra」モードが新たに導入された。
Terminal-Bench 2.1でClaude Mythos 5を上回る
公開されたベンチマーク結果によれば、AIエージェントがターミナル環境で実務に近い作業をどれだけ自律的に完了できるかを測る「Terminal-Bench 2.1」で、GPT-5.6 Sol Ultraは91.9%、Solは88.8%を達成し、Claude Mythos 5(88.0%)を上回った。長期にわたるゲノミクス・定量生物学の解析を評価する「GeneBench v1」でも、GPT-5.5を上回る結果をより少ないトークンで実現したという。
多層構造のセーフガード、自動レッドチーミング
GPT-5.6では性能だけでなく、安全対策にも大きく重点を置いた。モデルに組み込まれた拒否動作、生成中のリアルタイム分類器、アカウントレベルのレビュー、差別化されたアクセスなどを組み合わせた多層構造を採用。サイバーや生物学関連の高リスク要求を検出した場合、アクティベーション分類器やリアルタイム会話スキャンが文脈を判定したうえで、出力を遮断する仕組みを備える。ソフトウェアの脆弱性を発見・修正する用途では高い能力を持つ一方、攻撃を一貫して実行する能力については、安全対策により抑制されている。OpenAIのPreparedness Framework(準備態勢フレームワーク)におけるサイバー分野の危険閾値には達していないと説明する。
OpenAIは自動レッドチーミングにA100相当で、70万以上のGPU時間を投入したほか、第三者テスターによるレッドチーミングも実施しており、プレビュー期間中も検証を継続する。
API利用の価格は、Solが100万トークンあたり入力5ドル/出力30ドルである。Terraは入力2.5ドル/出力15ドル、Lunaは入力1ドル/出力6ドルに設定された。プロンプトキャッシュ機能も改善し、繰り返し実行するワークロードのコスト予測性を高めたとしている。
数週間以内の一般提供を目指す
提供方法は通常のリリースとは異なる。米政府との協議を踏まえ、GPT-5.6シリーズはまず「信頼できるパートナー」に限定して公開される。米メディアの報道によれば、トランプ政権はフロンティアモデルのサイバー悪用リスクを警戒しており、AI企業に対し最先端モデルの公開前審査を求める動きを強めている。GPT-5.6のプレビュー提供パートナーの対象は、参加者リストを事前に政府と共有したパートナーに限られる。OpenAIは数週間以内の一般提供を目指すとしている。
同社はブログで、開発者や企業、サイバー防御に携わる組織、国際的なパートナーが最良のツールにアクセスできなくなる懸念から、「このような政府による手続きが長期的な標準となるべきではないと考えている」と述べている。今回はより広範な提供に移行するための短期的な措置を設けたが、今後のAIモデル公開の標準化された手続きの構築に向け、政権との協議を続けるとしている。


