OpenAI「GPT-5.4」発表、実務タスク性能を強化　コンピュータ操作で人間平均を上回る

米OpenAIは3月5日（現地時間）、フロンティアモデルの新版「GPT-5.4」を発表した。複雑な実務への最適化を主眼としたアップデートであり、推論、コーディング、外部ツール連携を一体的に強化した。また、CodexとAPIではコンピュータ利用機能（computer-use capabilities）がネイティブに統合された。

GPT-5.4は、APIで「gpt-5.4」として提供開始されており、より高性能な「GPT‑5.4 Pro」（gpt-5.4-pro）も用意される。また、ChatGPTとCodexでも順次提供が始まった。ChatGPTでは、新たなThinkingモデル（GPT-5.4 Thinking）として、ChatGPT Plus/Team/Proから提供される。

GPT-5.4は、GPT-5.2の一般的な推論機能をベースに、専門家が扱う実務タスクにおいて、より一貫性が高く洗練された結果を提供できるとしている。

OpenAIによると、評価指標「GDPval」⁠で、GPT‑5.4は83.0%で業界の専門家と同等以上の成果を達成した。GDPvalは、米国GDPへの寄与が大きい主要産業分野の44職種を対象に、文書作成、営業プレゼンテーション、会計スプレッドシート、救急医療のスケジュール作成など、実際の業務タスクにおける成果物をAIモデルと業界専門家で比較するベンチマークである。前世代モデルGPT‑5.2の勝率（win rate）は70.9%だった。

GPTシリーズには従来から自動操作の仕組みが存在したが、コンピュータ利用機能が汎用モデルとしてネイティブ統合されたことで、アプリケーションをまたぐ複雑なワークフローの実行が可能になった。

OpenAIによると、デスクトップ操作能力を測定するベンチマーク「OSWorld-Verified」で、GPT-5.4は75.0%の成功率を記録した。前モデルGPT-5.2の47.3%から大きく向上しており、人間の平均的成功率とされる72.4%も上回る結果となった。

また、APIのコンテキストウィンドウを最大100万トークンに拡大し、エージェントがより長い手順の計画・実行・検証を行えるようにした。さらにツール検索（Tool Search）機能も導入した。これまでモデルにツールを利用させる際、すべてのツール定義を読み込ませる必要があり、処理速度の低下やコスト増加の要因となっていた。GPT-5.4では、必要なタイミングで該当ツールの定義のみを検索して取得できるため、ツールを多用するワークフローで必要なトークン数を大幅に削減できる。

ChatGPTのGPT-5.4 Thinkingでは、長い回答の前に推論の計画を提示できるようになった。処理途中での指示調整が可能となり、ユーザーは目的に近い最終出力を効率的に得られる。また、具体的なクエリに対するディープウェブリサーチ能力も改善され、長時間の思考を必要とする質問においても、文脈をより安定して維持できるようになった。