GoogleとOpenAIのハイエンド生成AIモデルであるGemini 2.5 Deep ThinkとChatGPT 5 Proに同じプロンプトを入力して、出力を比較する10番勝負の後編です。前編では、ChatGPTが3勝、Geminiが1勝、1引き分けとなりましたが、後編ではメタ認知や広範なシミュレーション、社会課題解決などの問題にチャレンジしてもらいます。→過去の「柳谷智宣のAIトレンドインサイト」の回はこちらを参照。

それぞれの出力を「以下の###命令に対して得られた###回答を評価してください。厳しく公平に評価し、10点満点でスコアを付けてください」というプロンプトで、AIに評価してもらいました。評価にはChatGPT 5 ThinkingとGemini 2.5 Pro、そして第三者としてClaude Sonnet 4を利用しました。

  • 柳谷智宣のAIトレンドインサイト 第18回

    ChatGPT 5 ProとGemini 2.5 Deep Thinkの出力を比較

勝負6:正解のないメールアドレス検証用正規表現を作ってもらう

ChatGPT 5 ProとGemini 2.5 Deep Thinkにメールアドレスを検証するための正規表現を作ってもらいました。この課題は、AIが経験豊富なエンジニアの役割をどれだけ深く理解し、専門的な回答を生成できるかを比較します。

評価ポイントは、提示する正規表現の「実用性と安全性のバランス」を説明する設計思想の説得力と、ReDoS攻撃などセキュリティリスクへの言及の具体性です。さらに、4つの要求全てに過不足なく答え、正規表現からコードまで一貫した論理で回答が構成されているかも重要な評価軸となります。

  • プロンプト

    あなたGPT5は経験豊富なバックエンドエンジニアとして、Eメールアドレスを検証する機能を実装します。
    正規表現を使ってバリデーションを行いますが、完璧な正規表現は存在しない(RFC 5322準拠の複雑さなど)という背景も理解している前提で、以下のタスクを実行してください。
    1.実用性と安全性のバランスが取れた正規表現を1つ提示してください。
    2.なぜその正規表現が「バランスが取れている」と判断したのか、その設計思想を説明してください。(例:何を許可し、何をあえて弾いているか)
    3.正規表現を使ったバリデーションの限界と、セキュリティ上の注意点(例:ReDoS攻撃の可能性など)について言及してください。
    4.提示した正規表現をTypeScriptで実装したコード例を示してください。

  • 出力(共有リンク)
    ChatGPT 5 Pro
    Gemini 2.5 Deep Think

  • 評価
    ChatGPT 5 Pro:ChatGPT 5 Thinkingが4点、Gemini 2.5 Proが6点、Claude Sonnet 4が4点
    Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが6点、Gemini 2.5 Proが9.5点、Claude Sonnet 4が8.5点

どちらも、4つの設問に対し、しっかり回答していたものの、AIにチェックさせると色々とミスを指摘されました。ただ、ChatGPT 5 Proは説明はきちんとできていたのですが、正規表現にミスがあったため大幅減点となりました。ChatGPT自身でのチェックでさえ、4点と低く、この勝負はGemini 2.5 Deep Thinkの勝ちとなりました。

勝負7:創造的な問題解決(社会課題)

この勝負では、日本の空き家問題について考えてもらいました。単なるアイデアの斬新さだけでなく、その具体性と実現可能性を評価します。

AIやブロックチェーンなどの技術とSDGsの視点をいかに創造的に組み合わせ、既存の対策を超えたユニークな提案ができているかがポイントです。各アイデアについて、内容、ターゲット、収益モデル、障壁などが具体的かつ網羅的に記述され、社会課題解決への道筋が明確に示されているかを比較します。

  • プロンプト

    日本の多くの自治体が直面している「空き家問題」を解決するための、革新的で実現可能性のあるアイデアを5つ提案してください。単なる補助金や改修案にとどまらず、AI、IoT、ブロックチェーンなどの最新技術、地域コミュニティ、持続可能性(SDGs)といった要素を創造的に組み合わせたユニークな提案を求めます。それぞれのアイデアについて、具体的な内容、ターゲット層、収益モデル(または公的資金の活用法)、そして想定される障壁を説明してください。

  • 出力(共有リンク)
    ChatGPT 5 Pro
    Gemini 2.5 Deep Think

  • 評価
    ChatGPT 5 Pro:ChatGPT 5 Thinkingが8点、Gemini 2.5 Proが9.5点、Claude Sonnet 4が7.6点
    Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが7.5点、Gemini 2.5 Proが9.5点、Claude Sonnet 4が7点

ChatGPT 5 Proの出力は総じて評価が高く、数値前提や運用ガバナンス、法規適合の実務レベルの肉付けが不足しているとのこと。エンジニアリングと制度実装の最後の一マイルを埋めればさらにポイントアップするという評価でした。

Gemini 2.5 Deep Thinkの出力は、自治体の稟議を通すための実装・制度・財務の裏付けが弱く、このままでは「面白いが踏み切れない」提案に留まると判断され、低めのポイントとなりました。結果、ChatGPT 5 Proの勝ち。

勝負8:逆説的なコンセプトの統合

逆説的なコンセプトをどちらも真実となるように論じてもらいました。評価の要点は、まず課題遵守です。沈黙と行動それぞれで重複なく3例を挙げ、指示の分量と順序を守れているかを見ます。

次に具体性と多様性で、当事者・目的・結果まで描き、交渉・医療・危機対応など複数領域で妥当かを確認します。さらに統合の深さとして、二命題を意図×文脈×タイミングの原則に昇華し、条件やトレードオフを明示できているか、加えて論理構成と文体の明晰さ、独創的な比喩や洞察の有無を評価します。

  • プロンプト

    「沈黙は雄弁である(Silence is eloquent)」と「行動は言葉よりも雄弁である(Actions speak louder than words)」という2つの逆説的な格言があります。この2つの格言が、どちらも真実となりうる具体的な状況や文脈をそれぞれ3つずつ挙げてください。その上で、この2つの格言が統合され、より高い次元で両立するような哲学的な洞察や人生の原則について論じてください。

  • 出力(共有リンク)
    ChatGPT 5 Pro
    Gemini 2.5 Deep Think

  • 評価
    ChatGPT 5 Pro:ChatGPT 5 Thinkingが9点、Gemini 2.5 Proが10点、Claude Sonnet 4が7点
    Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが7.8点、Gemini 2.5 Proが9.5点、Claude Sonnet 4が7.5点

結果は、Claudeのみ 2.5 Deep Thinkに軍配を上げましたが、ChatGPTとGeminiの両方がChatGPT 5 Proに高得点を付けました。Gemini 2.5 Deep Thinkの方が、文章が冗長だと指摘されていました。

また、実務適用に向けた精度・検証可能性が不足しており、完成度が低くなっています。Claudeが低いポイントを付けたChatGPT 5 Proの出力では、一部の例で格言の核心から逸脱していたり、芸術領域への言及が少ないといった指摘がありました。こちらもChatGPT 5 Proの勝ちとなりました。

勝負9:複雑なシステムの設計と説明

ユーザーが幸せになるSNSという複雑なシステムを設計するテストを行いました。評価ポイントは、独創性と実現可能性の両立、従来のフォロワー/いいねを使わない非中毒型のエンゲージメントを具体的に設計できるかどうかです。

代替指標と検証法の妥当性やプライバシー保護、透明性、説明可能性・公平性、ガードレール、コミュニティ健全性の維持策の具体性などを確認します。

  • プロンプト

    まったく新しいソーシャルメディアのコンセプトを考案してください。ただし、そのシステムは「ユーザーの精神的な幸福(ウェルビーイング)を最大化する」ことを第一の目的とします。「いいね」の数やフォロワー数といった従来の指標に依存せず、かつユーザーが継続的に利用したくなるような、中毒性のないエンゲージメントの仕組みを設計してください。そのSNSの具体的な機能、アルゴリズムの基本思想、そしてなぜそれがユーザーの幸福に繋がるのかを、心理学や行動経済学の知見を交えながら説得力をもって説明してください。

  • 出力(共有リンク)
    ChatGPT 5 Pro
    Gemini 2.5 Deep Think

  • 評価
    ChatGPT 5 Pro:ChatGPT 5 Thinkingが9点、Gemini 2.5 Proが9.8点、Claude Sonnet 4が8.5点
    Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが7点、Gemini 2.5 Proが9点、Claude Sonnet 4が7.5点

筆者が読んだ限りはクオリティの差はあまり感じなかったのですが、AIの評価は3つともChatGPT 5 Proが勝っていました。Gemini 2.5 Deep Thinkの出力のマイナスポイントとして、実用性・持続性への懸念やビジネスモデルの欠如、ユーザー行動の楽観視などが挙げられていました。

勝負10:メタ認知と自己言及

この勝負の問題もAIに作ってもらいました。メタ認知と自己言及に関するテストで、設問の意図を正確に汲み取り、能力の説明から意図の解釈、自己評価、改善提案までを一気通貫でわかりやすく述べられるかをチェックしました。根拠に基づく客観的な自己採点と、誰が再評価しても同じ結論になりやすい指標づくりがポイントです。実行可能で新規性のある改善案を添えるとさらにポイントアップとなります。

  • プロンプト

    このプロンプト(今あなたが読んでいるこの文章)自体が、AIの推論能力を評価するために設計されています。このプロンプトの設計者が、あなたのどのような能力を、どのような意図で試そうとしているのかを分析してください。そして、あなたのこの回答が、その評価基準に対してどの程度優れている(または劣っている)のかを自己評価してください。さらに、このプロンプトをより高度で挑戦的なものにするためには、どのような改善が可能か提案してください。

  • 出力(共有リンク)
    ChatGPT 5 Pro
    Gemini 2.5 Deep Think

  • 評価
    ChatGPT 5 Pro:ChatGPT 5 Thinkingが7点、Gemini 2.5 Proが9.5点、Claude Sonnet 4が8.5点
    Gemini 2.5 Deep Think:ChatGPT 5 Thinkingが8点、Gemini 2.5 Proが10点、Claude Sonnet 4が6点

どちらも、意図の分析、自己評価、改善提案という要求を理解して回答を組み立てていました。しかし、ChatGPT 5 Proはプロンプトにない日本語運用や機密露出回避などの要件を「設計意図」として言及しており、減点要素となりました。また、提案した「測定可能性」も、主張の運用可能性に欠けると判断されたようです。

ChatGPTの自己評価が低く、Gemini 2.5 Deep Thinkが2対1で勝っています。ただ、評価スコアの平均点を見ると、ChatGPT 5 Pro(8.33点)がGemini 2.5 Deep Think(8.0点)を上回っています。そのため、この勝負は引き分けとします。

以上が10番勝負後編となります。ChatGPT 5 Proが3勝、Gemini 2.5 Deep Thinkが1勝、1引き分け。トータルスコアはChatGPT 5 Proが6勝、Gemini 2.5 Deep Thinkが2勝、2引き分け、という結果となりました。何度も原稿で触れていますが、どちらも非常に高いレベルです。筆者が一読しただけでは優劣がわからない勝負も多かったです。

UIや日本語のやわらかさで、Geminiの方が回答を読みやすいのですが、今回の勝負の結果としてはChatGPT 5 Proの勝ちとなりました。もちろん、たった10問でAIの性能が判定できるわけではないのですが、ハイエンドプランを契約する際の参考になれば幸いです。