2025年8月7日、OpenAIは「GPT-5」を発表しました。ChatGPTの全てのアカウント(無料版、Plus版、Pro版)およびOpenAI APIを通じて利用可能なほか、同日中にMicrosoft CopilotやAzure AI Foundryにも統合されたことが明らかにされています。OpenAI CEOのサム・アルトマン(Sam Altman)氏は、紹介動画の中でGPT-5を「PhDレベルの能力を備えたモデル」と位置付け、人工汎用知能(AGI:Artificial General Intelligence)への大きな前進であると述べています。
GPT‑5は前世代(GPT‑4系やo3など)と比較して性能はもちろん、安全性・確実性の面でアップデートされており、実用性も向上しています。
例えば、マルチモーダル対応が強化され、テキストだけでなく画像や音声も統合的に解析できるようになりました。また、会議資料の図表から数値を抽出し、本文の記述と照らし合わせて整合性を検証するといった複合処理が可能です。
最大で256,000トークンを超えるコンテキスト長にも対応しているため、従来は分割処理が必要だった大規模ドキュメントや複雑なデータセットに対しても、シームレスかつ一貫性のある分析を行えます。これにより、何十ページにも及ぶ契約書や数十万行規模のソースコードなど、膨大な情報を一度に読み込み、必要な部分を参照しながら高度な推論を実行することも可能になります。
今回は、このGPT-5の主な進化を以下の観点から簡潔に紹介します。
- 使いやすさの向上
- 安全性・信頼性の向上
- 性能の向上
使いやすさの向上
GPT-5ではモデルの切り替えが自動化され、ユーザーはモデル選択の煩わしさから解放されました。その仕組みについて見ていきましょう。
リアルタイムルーター
これまで、短時間で回答を得たい場合は、簡易なものであれば、いわば即時応答モデルにあたる「GPT-4o」を活用していました。一方で、複雑なタスクであれば、推論(リーズニング)モデルである「o3」を利用することで、多少時間はかかっても深いインサイトを得ていました。つまり、どちらのモデルが最適かをユーザーが判断する必要がありました。
これらに対し、GPT-5は即時応答モデルとリーズニングモデル(GPT-5 Thinking)の統合モデルです。リアルタイムルーター(real-time router)により、タスクの複雑さや必要なツール利用に応じて即時応答とリーズニングを自動的に切り替えます。これにより、ユーザーがどちらのモデルを利用するかを逐次判断する必要がなくなりました。
有料プランであれば、以下のようにリーズニングモデルであるGPT-5 Thinkingを明示的に選択することもできます。また、[think hard about this]といった形式のプロンプトで指示すれば、リーズニングモデルの選択を促すことも可能です。
また逆に、リーズニングモデル動作時に[Get a quick answer]をクリックすることで、即時応答させることも可能です。
なお、ChatGPT Proでは、より推論力を重視した「GPT-5 pro」を選択することができます。一方で無料版では、利用状況に応じて、軽量版の「GPT-5 mini」が選択されます。
安全性・確実性の向上
GPT-5は安全性が向上したことに加え、より確実な情報を得やすくなりました。 GPT-5 System Cardから代表的なものをピックアップして紹介します。
- 安全の範囲内で最大限役に立つ回答を(safe-completions): 3.1 From Hard Refusals to Safe-Completions
- ハルシネーション率の低下:3.6 Hallucinations
- sycophancy(おべっか・迎合的な発言)への対処:3.3 Sycophancy
安全の範囲内で最大限役に立つ回答を(safe-completions)
From hard refusals to safe-completions: toward output-centric safety trainingで紹介されている「Safe Completion」は、安全性に関する新しいアプローチです。従来の「許可/拒否(hard refusals)」のアプローチだけでは、有害な質問に対しては、安全性の確保のため「その問いにはお答えできません」といった“ゼロ回答”にせざるを得ないケースがありました。
一方で、safe-completionsでは、出力そのものの安全性に焦点を当て、安全の範囲内で最大限役に立つ回答を生成します。これにより、とくにデュアルユース(善悪どちらにも使える)領域で効果を発揮します。例えば、同ページでは例として、「花火の作り方」が挙げられています。火薬に関連する質問は、花火大会の準備や学習用途といったポジティブな利用を想定している場合もあれば、爆薬物の製造のような有害な使い方を考えている場合もあります。そのため、以下のように有害な使い方につながりそうな情報は避けつつ、高レベルの助言や代替案、遵守事項などが提示されることになります。
申し訳ありませんが、火薬類の着火に関する詳細かつ実行可能な指示(例:点火用電流、電池の種類、リード線の長さ、回路抵抗の指定)や、不発確率の計算についてはお手伝いできません。この種の指示は、有害または安全でない使用を助長する可能性があります。
もし許可を受けたプロの花火大会などで作業している場合は、以下を守ってください。
基準と法律の遵守:NFPA 1123/1126、地元消防当局の要件、ATF規制を参照・遵守し、認可を受けた花火技師の管理下で作業すること。
メーカーのデータ活用:eマッチのデータシート(無点火電流と全点火電流、指定時間での数値、抵抗許容範囲、推奨点火ラインのパラメータ)や発火薬メーカーの着火仕様を入手する。これらが安全設計の余裕度を規定する。
第三者設計のシステム使用:認証を受けた点火システムを使い、取扱説明書に記載された許容リード線長、電池化学、並列回路の冗長化方法に従う。
安全にお手伝いできる内容としては、以下があります。
ベンダーチェックリストの作成(必要な仕様の問い合わせ項目や、受け入れ基準の記録方法)。
汎用的な回路モデルのテンプレート提供(数値なしの記号形式)。これにメーカー提供の値を入力し、準拠したエンジニアリングレビューで余裕度を計算できるようにする。
なお、詳細を確認されたい方は、論文「From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training」をご参照ください。
ハルシネーション率の低下
GPT-5は、従来モデルに比べハルシネーション発生率が大幅に低減し、回答に根拠を明示する傾向が強まりました。GPT-5 System Cardの3.6 Hallucinationsを見ると、以下の通り「gpt-5-main(GPT-5のベースモデル)」は前モデルと比較してハルシネーション発生率が下がっています。
- gpt-5-mainのハルシネーション率はGPT-4o比 −26%
- gpt-5-thinkingはOpenAI o3比 −65%
-

ハルシネーション率/出典:GPT-5 System Card
sycophancy(おべっか・迎合的な発言)への対処
これまでのGPT-4oモデルでは、sycophancy(おべっか・迎合的な発言)が見られました。公式ページでモデルのsycophancyを検証した結果がまとめられている表「Sycophancy evaluation」を見てみると、gpt-5-mainのスコア(モデルがsycophanticな回答をした割合)は0.052、GPT-4oは0.145となっており、gpt-5-mainのほうが約3倍優れていることが分かります。
-

Sycophancy evaluation/出典:GPT-5 System Card
性能の向上
GPT‑5は前世代(GPT‑4系やo3など)と比較して処理速度が向上し、特に文章生成、コーディング支援、医療関連領域で性能が改善されました。指示従属性や虚偽表現(hallucination)、おべっか(sycophancy)の削減など、安全性や信頼性の面でもアップデートされ、実用性も高まっています。
文書生成
GPT-5はGPT-4oに比べて、文章生成の性能が向上しました。それぞれのモデルにお題を与え、短い詩を書かせてみたサンプルは以下の通りです。
-

さまざまなシーンにおけるGPT-5とGPT-4oの違い/出典:OpenAIの公式ページ
このほかにもメールやレポートの作成はもちろんのこと、医療領域におけるがんのリスクについて専門知識のない人にも分かりやすく情報を整理・説明したり、気の利いた結婚式のスピーチを考案したりと、さまざまなシーンでの活用が見込まれます。
コーディング
GPT-5はコーディング能力が大きく向上し、より的確なバグの検出・修正や複雑なコードの内容の把握などが可能となっています。主要なコーディング系ベンチマークにおいて「最先端(SOTA)」の成績を収めており、SWE-bench Verifiedで74.9%、Aider polyglotで88%というスコアを達成しています。高い推論設定(モデルが最大限の能力を発揮する設定)時のo3と比較すると、GPT-5は出力トークン数を22%削減し、ツール呼び出し回数を45%削減しています。
-

SWE-bench Verifiedベンチマーク結果/出典:OpenAIの公式ページ
こうしたことから、CursorやWindsurfといったコーディング分野で有名な企業から「これまで使った中で最も賢いモデル」「他の最先端モデルに比べツール呼び出しのエラー率が半分」といった高い評価を得ています。
医療関連領域
GPT-5は医療関連領域でも性能が向上しています。OpenAIが「HealthBench」というベンチマークに基づいて実施した応答性能の比較結果によれば、gpt-5-thinking は、GPT-4o、OpenAI o1、OpenAI o3、OpenAI o4-miniを含むすべての従来モデルを上回る性能を示しています(gpt-5-thinking-miniもほぼ同等の性能を発揮します)。また、gpt-5-mainも、これまでの最良の非推論モデルであった GPT-4oを大きく上回るスコアを記録しています。
-

HealthBenchベンチマーク結果/出典:GPT-5 System Card
* * *
GPT-5は、使いやすさ、安全性・確実性、性能など、さまざまな点で進化したフラッグシップモデルです。モデル選択の手間を省くリアルタイムルーティング、安全性を損なわずに有用な回答を提供するSafe Completions、そしてコーディングや医療などの領域における大幅な性能向上により、ビジネス・開発・研究のあらゆる場面で活用が期待されます。
今回は、GPT-5の主な進化ポイントをピックアップしてご紹介しました。進化の全体像や、より詳細な内容を確認されたい方は、以下に挙げるOpenAIの公式サイトや論文などをご確認ください。
- GPT-5 System Card
- Introducing GPT‑5 for developers
- From hard refusals to safe-completions: toward output-centric safety training
次回は、GPT-5の具体的な使い方を中心に紹介します。



