「Gemma 4」の推論速度を最大3倍に、GoogleがMTPドラフターを公開

米Googleは5月5日（現地時間）、オープンモデル「Gemma 4」ファミリー向けに、Multi-Token Prediction（MTP：マルチトークン予測）ドラフターを公開した。投機的デコーディングに用いる軽量モデルで、出力品質や推論ロジックを劣化させることなく、最大3倍の推論高速化を実現するという。Apache 2.0ライセンスで提供され、Hugging FaceおよびKaggleからダウンロードが可能だ。

通常のLLM推論では、1度に1つのトークンを生成する自己回帰的な手法がとられるが、この処理はメモリ帯域幅に大きく依存する。次の1トークンを生成するたびに大量のパラメータをメモリから読み出す必要があり、特にローカルPCやコンシューマ向けGPUでは、メモリ帯域がボトルネックになりやすい。

今回公開されたMTPドラフターは、「投機的デコーディング（Speculative Decoding）」と呼ばれる技術に用いられる。ターゲットとなる大規模モデル（例：Gemma 4 31B）に軽量なドラフター（MTPモデル）を組み合わせ、ドラフターが未使用の演算リソースを用いて複数の将来トークンを予測する。その候補を大規模モデルが並列に検証し、予測が一致すれば1回の処理で複数のトークンを確定・出力できる。最終的な検証はターゲットモデルが担うため、品質や推論精度を維持したまま高速化が図れる。

Gemma 4は4月2日に公開されたGoogleの最新オープンモデルファミリーである。画像・動画・音声を扱うマルチモーダル対応、関数呼び出し、構造化JSON出力、長文コンテキストなどを特徴としており、公開から数週間でダウンロード数は6000万件を超えた。ローカルLLMとしての扱いやすさを含めて高く評価されているが、一部環境において推論速度の遅さがユーザーから指摘されていた。

その原因としてXDA Developersは、Gemma 4の公開時の重みにMTPヘッドが含まれておらず、31Bモデルなどで推論速度の制約が生じていると指摘していた。

今回のMTPドラフター公開は、Gemma 4本体のモデル性能を更新するものではなく、推論時の応答性を高めるための公式補完手段と位置づけられる。Gemma 4とMTPドラフターの組み合わせにより、Googleは以下の利点を挙げている。