2025年3月26日、Googleが次世代推論AI「Gemini 2.5」シリーズを発表し、同時にマルチモーダルAI「Gemini 2.5 Pro Experimental」がリリースされました。Gemini 2.5は、より複雑な問題に取り組むために設計された推論型のAIモデルで、高い推論力とコード生成能力を備えているのが特徴です。
多くのベンチマークで圧倒的なスコアを叩き出したGemini 2.5 Pro Experimental
現在、Gemini AdvancedとGoogle AI Studioで利用できます。筆者はGoogle Workspaceユーザーですが、GeminiのAIモデルメニューから切り替えることで利用できました。
今のところ、無料プランでは1日50リクエストまで、1分当たりのリクエスト数は2回/分とのことです。また、ナレッジカットオフ日が2025年1月と新しいのもポイントです。
Gemini 2.5 Pro Experimental(以下、EXP)は、数多くのベンチマークテストにおいて圧倒的なスコアを叩き出し、Chatbot Arenaでは他のモデルを上回る評価を獲得。特に、数理問題や科学的課題、そして人間の知識の限界を試す「Humanity's Last Exam」といった高度な評価基準において、優れた推論能力を発揮しています。
Googleの発表によれば、ほとんどのテストでOpenAI o3-miniやGPT-4.5、Claude 3.7 Sonnet Extended、Grok 3 Beta、DeepSeek R1のスコアを超えているそうです。
Gemini 2.5 Proは、コード生成や編集においても大きな進化を遂げており、ウェブアプリケーションやエージェント型コードアプリケーションの作成においても優れた性能を持っています。
SWE-Bench Verifiedといった業界標準の評価テストでは、カスタムエージェントのセットアップにおいても高いスコアを記録し、シングルラインのプロンプトから実行可能なビデオゲームのコードを生成するなど、その応用範囲の広さが伺えます。以下の動画は1文のプロンプトからプレイできるゲームを生成するデモです。
Gemini 2.5はマルチモーダルなデータ処理能力や、従来のモデルを凌駕する大容量のコンテキストウィンドウを備えています。今のところは従来と同じ100万トークンですが、今後200万トークンになる予定です。
テキストや音声、画像、動画、さらにはコードリポジトリといった多様な情報源を統合し、複雑な問題に対応することができます。
大学入試チェック
では、早速試してみましょう。2025年の東京大学第2次試験問題からベクトルの問題です。
-
プロンプト
東京大学理系数学 2025 大問1
座標平面上の点 A(0,0),B(0,1),C(1,1),D(1,0)を考える。実数0<t<に対して、線分AB,BC,CDをt:(1-t)に内分する点をそれぞれPt,Qt,Rtとし、線分PtQt,QtRtをt:(1-t)に内分する点をそれぞれSt,Ttとする。さらに、線分StTtをt:(1-t)に内分する点をUtとする。また、点AをU0,点DをU1とする。
(1)点Utの座標を求めよ。
(2)tが0≦t≦の範囲を動く時に、点Utが描く曲線と、線分ADで囲まれた部分の面積を求めよ。
(3)aを0<a<1を満たす実数とする。tが0≦t≦aの範囲を動く時に点Utが描く曲線の長さを、aの多項式の形で求めよ。
筆者にはさっぱりですが、問題文を入力すると、数分で回答が完了。全問正解でした。
文字起こしチェック
時々、資料のPDFをもらうと、全ページが画像データになっていることがあります。この場合、OCR処理をしないと、テキストとして処理できないので、人間は読めますが、AIは読めない、ということになります。
例えば、ChatGPT 4.5やo1に渡しても、OCR処理してくれません。その点、Gemini 2.5 Pro EXPは細かい文字も完ぺきに文字起こししてくれました。
海外のピッチイベントで貰うPDFにはテキストデータが付いていないことが多く、これまでは目視で手動文字起こしをしていて手間がかかっていました。Gemini 2.5 Pro EXPがあれば、これからは取材原稿を書くのがはかどりそうです。
もちろん、プレゼン資料だけでなく、スキャンした表組や自治体が作るような複雑なパワポなども人間以上に読み取ってくれます。さすがのマルチモーダル性能と言えるでしょう。
原稿作成能力チェック
資料をもとに、どのくらいの原稿を執筆できるのかも試してみました。「砂糖入り飲料による糖尿病と心血管疾患の世界的リスクを評価」という論文のPDFファイルから、1万文字のわかりやすい解説原稿を書くように指示してみました。もちろん、論文は英語です。
まずは、ChatGPT o1で出力させてみると、8163文字の包括的な原稿を書いてくれました。Gemini 2.5 Pro EXPも少々時間がかかったものの、6088文字の原稿を生成してくれました。
ChatGPT o1はパラグラフごとに要約するスタイルで、22パラグラフまで執筆しました。一方、Gemini 2.5 Pro EXPはそのように区切らず、自然な原稿のまま書き上げています。少々文字数が少ないものの、原稿のクオリティではGemini 2.5 Pro EXPが圧勝です。
これまで、原稿執筆はChatGPT o1 Pro modeかClaude 3.7 Sonnet Extendedを利用していたのですが、Gemini 2.5 Pro EXPも選択肢入り、もしくはスタメンになるレベルでした。
プログラミングチェック
コード生成機能も打ち出していたので、試してみました。例えば、ボールが飛び回るようなシミュレーションプログラムも1行書くだけで生成してくれます。
-
プロンプト
立方体の中で5個の粒子が跳ね回るシミュレーションをするp5.jsスクリプトを書いてください。それぞれ、赤、青、黄、緑、白色にして、ボールの移動には短時間の軌跡を表示してください。最初はクローズアップで、少しずつズームアウトしてください。
筆者はコードのクオリティまではジャッジできないのですが、実際に動作するコードがさくっと作れてしまうのは驚きです。SNSではもっと高度なプログラムを作成している人がたくさんいるので、エンジニアの働き方にも影響を与えそうです。
さて、ではまとめです。そこで、ここまでの原稿をGemini 2.5 Pro EXPに貼り付けし、「原稿の締めの段落を300文字で書いてください」というプロンプトだけ入力してみました。まったく問題のない文章(297文字)だったので、そのまま締めとさせていただきます。
締めの段落案
今回登場したGemini 2.5 Pro Experimentalは、各種ベンチマークで他モデルを凌駕するだけでなく、実際のタスクにおいても驚異的な実力を見せつけました。
難解な大学入試問題を解き、画像化されたPDF資料を正確に文字起こしし、英語論文から質の高い日本語解説記事を作成、さらに簡単な指示で動作するコードを生成するなど、その応用範囲の広さと性能の高さは圧巻です。
特に、卓越した推論力とマルチモーダル処理能力は、これまでのAIの常識を覆す可能性を秘めています。今後予定されるコンテキストウィンドウ拡張も含め、Gemini 2.5シリーズがAIの未来をどう切り拓くのか、目が離せません。