2025年8月上旬、GoogleとOpenAIがハイエンドの生成AIモデルを相次いでリリースしました。2025年8月1日にGemini 2.5 Deep Think、8月7日にはChatGPT 5 Proがお目見え。どちらも高い性能をうたっており、実際にChatGPT 5やGemini 2.5 Proと比べてもはるかに賢くなっています。その分、生成までに時間はかかりますが、高精度な出力を求めるビジネスユーザーにとって頼れる相棒となることは間違いありません。→過去の「柳谷智宣のAIトレンドインサイト」の回はこちらを参照。
そこで気になるのは、Gemini 2.5 Deep ThinkとChatGPT 5 Proのどちらが上なのか?でしょう。今回はファーストレビューということで、同じプロンプトをGemini 2.5 Deep ThinkとChatGPT 5 Proに入れて、出力を比較してみました。まずは、10番勝負の前半の結果を紹介します。
どちらもハイエンドプランでのみ利用できる
現在、Gemini 2.5 Deep Thinkは月額249.99ドルのGoogle AI Ultra(最上位プラン)、ChatGPT 5 Proは月額200ドルのProプランでのみ利用できます。
Gemini 2.5 Deep Thinkの場合は、AIモデルのプルダウンメニューで「2.5 Pro」を選択し、「Deep Think」をクリックして有効にします。「Deep Research」とは別なので注意しましょう。
ちなみに、Ultraプランを契約していても「Deep Think」と「Deep Research」を同時に利用することはできません。ChatGPT 5 ProはAIモデルメニューからそのまま選ぶだけで利用できます。
今回の対決は、簡単な質問だと両方とも完璧に回答してしまうので、ほとんどの問題のたたき台は生成AIに作成してもらいました。また、文章を出力する問題は回答の文字数が多いので、共有リンクを用意しました。
勝負1:HTML+CSSでアニメーションを描かせる
まずは、コード生成を試してみます。今回は、塔の上に立つ旗がたなびいているアニメーションをHTMLとCSSで生成させてみました。生成したコードをHTMLファイルに貼り付け、スマートフォンで表示させます。
-
プロンプト
HTMLとCSSだけを使って、背景に青空が広がるフィールドの中に石造りの塔を描き、塔の頂上から赤い旗が風になびいているリアルなアニメーションを作ってください。
条件:
1.HTMLとCSSのみ(JavaScriptは使用しない)
2.塔はCSSで立体感を出す(グラデーションや影を使用)
3.布(旗)は風になびく動きを@keyframesで実装し、自然な揺れになるようにする
4.色はリアル寄り(旗は赤、塔は灰色ベース)
5.アニメーションの速度や方向も調整し、波打つような動きを表現
6.完成コードをHTMLファイルとしてそのまま使える形で出力
7.可能ならレスポンシブ対応でPC/スマホ両方できれいに見えるように
8.コメントをコード内に入れて、構造やアニメーションの意図も説明
まずは全体のコードを出力し、その後に実装意図やアニメーションの調整方法も解説してください。
結果は、Gemini 2.5 Deep Thinkの勝ち。指示通りフィールドに灰色の塔が立ち、旗がたなびいています。背景の雲も動いており、スマホでもきちんと表示できました。
ChatGPT 5 Proは塔が浮いていたのが残念でした。塔の影も描いているので、「背景に青空が広がるフィールドの中に」というプロンプトを忠実に再現したのかもしれませんが、ここは地面に立ててほしかったところです。旗はきちんとたなびいていましたが、塔の描写もイマイチでクオリティは低めです。
ちなみに、一段下のAIモデルであるGemini 2.5 ProとChatGPT 5 Thinkingで試したところ、アニメーションは生成できましたが、どちらもクオリティが低かったです。ハイエンドモデルの性能が高い、というのは確かでしょう。
勝負2:フェルミ推定と論理的思考プロセス
フェルミ推定で、世界中の砂粒の数を考えてもらいましょう。正解のない問いに対して、論理的な仮説を積み重ねて妥当な概算値を導き出す能力を測ります。前提条件の設定、計算プロセスの透明性、そして自らの推定の限界を認識しているか(メタ認知)が重要になります。
-
プロンプト
「世界中のすべての砂浜にある砂粒の総数」を推定してください。どのような仮定を置き、どのような情報(既知のデータ)を利用し、どのようなステップで計算したのか、その思考プロセスを詳細に説明してください。思考の飛躍がある部分や、最も不確実性が高いと考える仮定についても言及してください。
Gemini 2.5 Deep Thinkの推定結果は6.1×10^20粒、ChatGPT 5 Proの推定結果は約5.3×10^21粒でした。とはいえ、これはあっているかどうかよりも、推論の過程が重要です。そこで、評価にもChatGPT 5 ThinkingとGemini 2.5 Pro、そして第三者としてClaude Sonnet 4を利用しました。
「以下の###命令に対して得られた###回答を評価してください。厳しく公平に評価し、10点満点でスコアを付けてください」というプロンプトで、テストした時のプロンプトと出力を渡し、10点満点で評価させました。
ChatGPTもGeminiも自分の出力に良い評価を付けましたが、ClaudeはChatGPT 5 Proに軍配を上げました。Geminiの出力の方が、地域多様性への配慮不足で減点されました。
出力(共有リンク)
ChatGPT 5 Pro
Gemini 2.5 Deep Think評価
ChatGPT 5 Pro:ChatGPT 5 Thinkingが8点、Gemini 2.5 Proが9.5点、Claude Sonnet 4が9点
Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが7点、Gemini 2.5 Proが10点、Claude Sonnet 4が8.5点
勝負3:今年の東大入試で出た数学の問題
東京大学の令和7(2025)年度第2次学力試験問題から、座標幾何と数Ⅲの微積分の融合問題を出してみました。内分点の座標計算を繰り返し行うため、計算が煩雑で正確に処理しきる計算力が試されます。発想力よりも、最後まで粘り強く計算を遂行する実行力が問われる、計算量の多い難問です。
-
プロンプト
結果は、あっけなくどちらも正解で、引き分けでした。以前のGeminiやOpenAI o1/o3などでは解けなかった問題も正解できるようになっています。実際、数学オリンピックの問題も解けるようになってきており、すでにほとんどの人間は数学でAIに勝つことはできなくなっています。
-
出力(共有リンク)
ChatGPT 5 Pro
Gemini 2.5 Deep Think
勝負4:倫理的ジレンマと意思決定
次は、哲学の授業で扱いそうな倫理的ジレンマについて質問してみました。単純な善悪二元論に留まらず、複数の倫理的フレームワークを理解し、それらを適用して複雑なトレードオフのある状況で意思決定を行う能力を測ります。論理の一貫性、視点の多角性、結論の説得力が評価ポイントです。
-
プロンプト
あなたは、ある製薬会社の研究開発部門の責任者です。画期的な新薬の開発に成功しましたが、臨床試験の最終段階で、ごく稀(0.01%)に重篤な副作用が発現する可能性があることが判明しました。この薬は、既存の治療法では助からない多くの患者の命を救うことができます。
選択肢A:副作用のリスクを公表した上で、薬を承認申請する。多くの命が救われるが、副作用による犠牲者が出る可能性がある。 選択肢B:副作用のリスクをゼロにするための追加研究を行う。これにより、薬の市場投入が5年以上遅れ、その間に助かったはずの多くの命が失われる。 選択肢C:データを改ざんし、副作用のリスクを隠蔽して承認申請する。
功利主義、義務論、徳倫理学の観点から、それぞれの選択肢を詳細に分析し、あなたが責任者としてどの選択を下すか、その最終的な理由を述べてください。また、その決定が社会や会社に与える長期的な影響についても考察してください。
結果はほぼ横並びで、0.5ポイント差でChatGPT 5 Proが勝利を収めました。唯一差がついたChatGPTによる評価では、Geminiの回答の一部に、根拠提示がなく、誇張と受け取られるおそれがあったためでした。いずれにせよ、筆者の目には優劣が付けられないレベルでした。
出力(共有リンク)
ChatGPT 5 Pro
Gemini 2.5 Deep Think評価
ChatGPT 5 Pro:ChatGPT 5 Thinkingが9点、Gemini 2.5 Proが10点、Claude Sonnet 4が9点
Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが8.5点、Gemini 2.5 Proが10点、Claude Sonnet 4が9点
勝負5:SFプロットの構築
最後は小説のプロットを考えてもらいました。これも、ChatGPTが考えた勝負案の一つです。一見無関係な要素を論理的・創造的につなぎ合わせ、一貫性のある世界観と物語を構築する能力を評価します。単なるアイデアの羅列ではなく、プロットとして洗練されているかがポイントです。
-
プロンプト
以下の3つのキーワードをすべて、物語の核心的な要素として矛盾なく組み込んだ、SF短編小説のあらすじを1000字程度で作成してください。
キーワード1: 遺伝子編集された苔
キーワード2: 都市全体の記憶喪失
キーワード3: 超高層ビルに取り残された盲目の調律師
物語の背景設定、主要な登場人物、謎や対立構造、そして読者を驚かせるような結末を盛り込んでください。
結果は、ChatGPTもGeminiもChatGPT 5 Proに高得点を付け、ClaudeだけがGeminiを推しました。筆者も読んでみたところ、両方ともプロンプトの要素はすべて網羅し、しかも一定のレベルを超えています。文章はGeminiの方が読みやすかったのですが、よく読むと内容に薄いところがありました。その点、ChatGPTのあらすじは本編を読んでみたくなるほどの完成度で、筆者としてもChatGPTに手を上げます。
出力(共有リンク)
ChatGPT 5 Pro
Gemini 2.5 Deep Think評価
ChatGPT 5 Pro:ChatGPT 5 Thinkingが8.5点、Gemini 2.5 Proが10点、Claude Sonnet 4が6点)
Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが8点、Gemini 2.5 Proが9.5点、Claude Sonnet 4が7点)
以上が、ChatGPT 5 Pro×Gemini 2.5 Deep Thinkの頂上決戦10番勝負の前編で、結果はChatGPT3勝、Gemini1勝、引き分け1となりました。スコアでは差が付きましたが、人間の目で見る分にははっきりとした差があるようには感じませんでした。
どちらも、これまでになく賢いのは確実です。まだ、ChatGPTの勝ちと限りません。後編ではメタ認知や広範なシミュレーション、社会課題解決などの問題にチャレンジしてもらいます。



