米OpenAIは4月14日(現地時間)、最新の大規模言語モデル「GPT-4.1」ファミリーを発表し、API経由の提供を開始した。

今回リリースされたのは「GPT-4.1」「GPT-4.1 mini」「GPT-4.1 nano」の3種であり、「プログラミング支援性能の向上」「指示追従能力の改善」「最大100万トークンの文脈保持力」「コスト面での最適化」が強化点となっている。

GPT-4.1のリリースに伴い、OpenAIは「GPT-4.5 preview」のAPI提供を終了することも発表した。これはGPT-4.1が多くの主要機能において、「より低コストかつ低遅延で同等またはそれ以上の性能を発揮するため」である。OpenAIが公表したAIベンチマークの多くにおいて、GPT-4.1はGPT-4o(2024-11-20)やGPT-4.5 previewを上回っている。

コード生成能力が実用水準に?

OpenAIは、GPT-4.1を「実世界のソフトウェア開発ニーズに応えるために最適化した」としており、その例としてソフトウェアエンジニアリング・ベンチマーク「SWE-bench Verified」の結果を紹介している。このベンチマークは、バグ修正や機能追加といった実践的なタスクの精度を評価するものである。GPT-4.1は54.6%の課題を解決し、GPT-4oの33.2%、GPT-4.5の38.0%から大幅に向上。推論強化型の「o1」(41.0%)や「o3-mini」(49.3%)も上回った。

SWE-bench VerifiedはPythonコードの修正能力を評価するベンチマークに限られるが、GPT-4.1は複数言語への対応力でも高い評価を得ている。Aiderが公開している「polyglot (diff)」ベンチマークでは、GPT-4.1が52.9%のスコアを記録し、GPT-4.5に8ポイントの差をつけた。このテストは、複数のプログラミング言語におけるコード修正能力に加え、diff形式で変更を出力するモデルの実用性を評価するものである。従来のAIモデルはプログラムの一部を改変する際に全文を書き直す傾向があったが、GPT-4.1はdiff形式に従うようトレーニングされており、必要な箇所のみを効率的に変更できる。

さらに、GPT-4.1はフロントエンドのコーディングにおいてもGPT-4oを大幅に改善し、より機能的で美しいWebアプリを作成できるという。また、フォーマットの遵守性が向上しており、OpenAIの内部評価によれば、コードにおける不要な編集の発生率はGPT-4oの9%からGPT-4.1では2%へと大きく低下した。

指示追従と文脈保持力の強化

GPT-4.1は、ユーザーの指示に対する理解力と指示追従能力も大幅に向上した。ユーザーが指定したフォーマット(XML、YAMLなど)への準拠、禁止事項の遵守、指示された手順の実行、特定の情報の盛り込みといった複雑な要求に対する応答精度が改善されている。また、複数回にわたる対話の中で過去の発言内容を踏まえた応答を維持する能力も強化された。指示追従の精度を測る「MultiChallenge」ベンチマークで38.3%を記録し、GPT-4o比で10.5ポイントの改善が見られた。これにより、信頼性の高い対話型AIアプリケーションや、自律的にタスクを実行するエージェントシステムへの応用が進むと予想される。

さらに、GPT-4.1ファミリーの3モデルすべてが、最大100万トークンの広大なコンテキストウィンドウに対応した。これは従来のGPT-4oの12万8000トークンからの大幅な拡張であり、法務文書の精査や大規模コードベースの理解、長時間の会話記録分析といった複雑なタスクにも対応可能となった。OpenAIは、100万トークン全体にわたって情報を正確に参照できるようモデルを訓練したとしており、膨大な情報の中から重要な情報を探し出す能力を測る「Needle-in-a-haystack(干し草の山に針)」テストでも、情報の位置にかかわらず高い精度での抽出が可能であることが示されている。

GPT-4.1はすでに複数の企業による実証が行われている。例えば、Thomson Reutersが同社のAIアシスタント「CoCounsel」に組み込んだところ、複数文書レビューの精度が17%向上し、複数ソース間の矛盾検出や関連文の抽出において信頼性が高まったという。

nanoは最も高速かつ安価なモデル

GPT-4.1ファミリーは、開発者向けのAPIを通じて提供され、現時点ではChatGPTのインターフェースから直接利用することはできない。ただし、ChatGPTで提供されているGPT-4oモデルには、GPT-4.1で実現された指示追従性やコーディング能力、知能面での改善が段階的に取り込まれており、今後も継続的に反映される予定である。

価格面では、推論システムの効率化により低価格化が実現された。GPT-4.1はGPT-4oよりも中央値で26%安価となり、GPT-4.1 nanoは同社史上最も安価かつ高速なモデルとなった。各モデルの価格(100万トークンあたり)は以下の通りである:

  • GPT-4.1: 入力 2.00ドル / 出力 8.00ドル
  • GPT-4.1 mini: 入力 0.40ドル / 出力 1.60ドル
  • GPT-4.1 nano: 入力 0.10ドル / 出力 0.40ドル

さらに、同じコンテキストを繰り返し利用する場合のプロンプトキャッシュ割引率が従来の50%から75%に引き上げられた。加えて、長いコンテキストを使ったリクエストについても、標準のトークン単価以外の追加料金は発生しない。

なお、GPT-4.5 previewは開発者が移行するための3カ月間の猶予期間を設けた上で、7月14日に提供終了となる予定である。

生成AIモデルの開発競争が激化する中、GPT-4.1ファミリーの登場はAI開発コミュニティにとって大きな意味を持つ。これは単なるマイナーアップデートではなく、実用性に焦点を当てて強化された「現場仕様のAIモデル」である。Agentic Software Engineer(A-SWE:エージェント的ソフトウェアエンジニア) の実現に向けた、OpenAIにとっての重要な一歩といえる。