米Googleは12月17日(現地時間)、高速・低コストを重視したAIモデル「Gemini 3 Flash」を発表した。Gemini 3世代の推論力を、Flash系の低遅延と効率で提供する。同日より、GeminiアプリおよびGoogle検索のAIモードのデフォルトモデルとなり、Gemini API/Google AI Studio、開発環境(Google Antigravity、Gemini CLI)、Vertex AIなどでの展開が開始された。

GoogleがGemini 3 Flashで目指すのは、AIをより身近で、ストレスのない存在にすることである。「長い間、AIは『遅くて高価な大型モデル』か『能力は劣るが高速なモデル』かの選択を強いてきました。Gemini 3 Flashはこの妥協を終わらせ、『賢さ』と『速さ』を同時に提供します」とジョシュ・ウッドワード氏( VP、Google Labs & Gemini)は述べている。

Gemini 3 Flashは、従来の軽量モデルを大きく上回る推論能力を備える。専門的な知識を問う「GPQA Diamond」で90.4%、「Humanity’s Last Exam」で33.7%(ツールなし)を記録し、難度の高いベンチマークで上位モデルに迫る性能を示した。

企業や開発者向けに、Gemini 3 Flashは新たな「ワークホース(実務の主軸)モデル」となる。前世代の上位Proモデルである「Gemini 2.5 Pro」を多くの指標で上回りながら、2〜3倍の処理速度を実現し、実用性に優れたパフォーマンスを提供するという。

  • 低コスト化:Gemini APIでの価格は、100万トークンあたり入力0.50ドル、出力3.00ドル。これはGemini 3 Proの4分の1のコストであり、大量のデータ処理を行う企業にとって大きな利点となり得る。
  • コーディング能力:ソフトウェアエンジニアリングの能力を測る「SWE-bench Verified」で78%を記録。上位モデルのGemini 3 Pro(76.2%)を上回るスコアであり、AIエージェント機能への高い適性を示す。
  • 思考レベルの調整:高い効率性を重視して設計されている一方、複雑なタスクでは深い思考レベルで時間をかけるよう調整可能。これにより、Gemini 2.5 Proよりも平均して30%少ないトークンで、日常的なタスクをより高いパフォーマンスで正確に完了できるという。
  • 主要LLMの性能とコストを比較したパレートフロンティア

    Gemini 3 Flashは高速・低コスト志向のAIモデルの推論性能を押し上げる

一般ユーザー向けには、Google 検索の「AIモード」と、「Gemini」アプリ(高速モード、思考モード)のデフォルトモデルがGemini 3 Flashに刷新される。

Geminiアプリでは、モデルピッカーから「Pro」を選択することで引き続きGemini 3 Proが利用できる。米国では、AIモード内でモデルを切り替えられるようになり、「Thinking (3 Pro)」を選択することが可能。また、Google検索での「Nano Banana Pro」へのアクセスが拡大された。