米Googleは5月5日(現地時間)、オープンモデル「Gemma 4」ファミリー向けに、Multi-Token Prediction(MTP:マルチトークン予測)ドラフターを公開した。投機的デコーディングに用いる軽量モデルで、出力品質や推論ロジックを劣化させることなく、最大3倍の推論高速化を実現するという。Apache 2.0ライセンスで提供され、Hugging FaceおよびKaggleからダウンロードが可能だ。
通常のLLM推論では、1度に1つのトークンを生成する自己回帰的な手法がとられるが、この処理はメモリ帯域幅に大きく依存する。次の1トークンを生成するたびに大量のパラメータをメモリから読み出す必要があり、特にローカルPCやコンシューマ向けGPUでは、メモリ帯域がボトルネックになりやすい。
今回公開されたMTPドラフターは、「投機的デコーディング(Speculative Decoding)」と呼ばれる技術に用いられる。ターゲットとなる大規模モデル(例:Gemma 4 31B)に軽量なドラフター(MTPモデル)を組み合わせ、ドラフターが未使用の演算リソースを用いて複数の将来トークンを予測する。その候補を大規模モデルが並列に検証し、予測が一致すれば1回の処理で複数のトークンを確定・出力できる。最終的な検証はターゲットモデルが担うため、品質や推論精度を維持したまま高速化が図れる。
Gemma 4は4月2日に公開されたGoogleの最新オープンモデルファミリーである。画像・動画・音声を扱うマルチモーダル対応、関数呼び出し、構造化JSON出力、長文コンテキストなどを特徴としており、公開から数週間でダウンロード数は6000万件を超えた。ローカルLLMとしての扱いやすさを含めて高く評価されているが、一部環境において推論速度の遅さがユーザーから指摘されていた。
その原因としてXDA Developersは、Gemma 4の公開時の重みにMTPヘッドが含まれておらず、31Bモデルなどで推論速度の制約が生じていると指摘していた。
今回のMTPドラフター公開は、Gemma 4本体のモデル性能を更新するものではなく、推論時の応答性を高めるための公式補完手段と位置づけられる。Gemma 4とMTPドラフターの組み合わせにより、Googleは以下の利点を挙げている。
- 応答性の向上: リアルタイムチャットや音声アプリケーション、複数ステップの計画を要するエージェント機能の遅延を大幅に削減。
- ローカル開発の強化: コンシューマー向けGPUやPCにおいて、26B MoEや31Bモデルをより高速に動作させ、オフライン環境での高度な開発を可能に。
- エッジデバイスでの性能向上: E2BやE4Bモデルでの出力完了時間を短縮し、モバイル端末などのバッテリー消費を抑制。
Googleによれば、MTPドラフターはTransformers、MLX、vLLM、SGLang、Ollama、LiteRT-LMで利用できる。AndroidおよびiOS向けの「Google AI Edge Gallery」でも試すことが可能だ。


