Google「Gemma 4 12B」発表　16GB環境でローカル実行可能、26B MoEに迫る性能

Googleは6月3日（米国時間）、オープンウェイトのマルチモーダルAIモデル「Gemma 4 12B」を発表した。約120億パラメーターの中規模モデルを、16GBのVRAMまたはユニファイドメモリーを備えたPCでローカル実行できるサイズに収めた。マルチモーダル入力とエージェント型AI用途を、ローカル環境で扱いやすくすることを狙ったモデルである。ライセンスはApache 2.0で、「Hugging Face」「Kaggle」から事前学習済みおよび指示チューニング済みモデルを入手できる。

Gemma 4 12Bは、視覚と音声の入力を処理するための専用エンコーダーを使わないユニファイドアーキテクチャを採用している。従来のマルチモーダルモデルでは、画像や音声をLLMが扱える表現に変換するために独立したエンコーダーを用いるのが一般的だが、これがレイテンシーやメモリー使用量の増加を招いていた。

視覚処理には、従来のビジョンエンコーダーに代えて、3500万パラメーターの軽量な埋め込みモジュールを用いる。同モジュールは、48×48ピクセルのパッチを、LLM本体が処理できる内部表現へ変換する。音声については独立した音声エンコーダーを排除し、16kHzの音声信号を40ミリ秒のフレームに分割して、LLMの入力空間へ線形投影する。

性能面では、4月にリリースされた上位モデル「Gemma 4 26B Mixture of Experts（MoE）」と比べて半分以下のメモリーフットプリントで、標準的なベンチマークにおいて26B MoEに迫るスコアを示しているという。Gemma 4 12Bには「MTP（Multi-Token Prediction）ドラフター」が標準で組み込まれている。MTPは、次に続く複数のトークン候補を先読みすることで推論時の待ち時間を短縮する手法で、メモリ帯域がボトルネックになりやすいローカル環境での応答性向上に寄与する。

開発者向けの提供環境も広く用意される。LM Studio、Ollama、Google AI Edge Gallery、Google AI Edge Eloquent、LiteRT-LM CLIで試用できるほか、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLMなどの開発フレームワークにも対応する。効率的なファインチューニングにはUnslothも利用できる。Google Cloud上では、Gemini Enterprise Agent PlatformのModel Garden、Cloud Run、Google Kubernetes Engine（GKE）を通じたデプロイも選択肢となる。

Googleは、Gemmaモデルを活用したエージェント開発を支援するための公式スキルライブラリも公開した。リポジトリ内では、最新のGemma 4モデルなどをアプリ開発に組み込むためのベースとなるスキルなどが提供されており、コミュニティベースでのエージェント開発支援が進められている。