Google「DiffusionGemma」公開。並列性より高速性特化の拡散言語モデル、1枚のRTX 5090で動くNVFP4版も

米Googleは6月10日（現地時間）、オープンモデルとして「DiffusionGemma」を公開した。画像生成などに活用される拡散言語モデルを活用したことで、並列処理性能を下げつつ全体の処理速度を大幅に引き上げている。

Google「DiffusionGemma」公開。1枚のRTX 5090で動くNVFP4版も

Gemma 4よりも4倍高速に動作し、同等か若干劣る程度の性能を維持したというモデル。総パラメーター数252億、アクティブパラメーター数38億のMoEモデルで、推論のボトルネックをメモリの帯域幅から計算のほうに移して高速化を図った点が特徴。

多くの言語モデルでは左から1つずつトークンが生成されていくが、DiffusionGemmaでは256トークンの段落全体を一気に生成する。その後ノイズを低減していく拡散モデルを採用したことで、推論コアに多くの作業を一気に与えることが可能になる。Googleはこの違いを「一台の連続タイプライターから、テキスト全体に同時にスタンプを押す巨大な印刷機へとアップグレードするようなもの」と表現している。

ちなみに従来の自己回帰モデルは精度と並列性に優れている点が特徴で、AIサービスを大規模なシステムで莫大なユーザーに提供するような用途に強みがある。ローカル環境でAIを使うユーザーにとって並列性能はほとんど重視されないため、拡散モデルの採用にメリットがあるとしている。

速度と並列レイアウト生成を優先しており、全体的な出力品質は標準のGemma 4よりやや劣る

なお、NVIDIAを協力してハードウェアスタック全体への最適化を行い、NVIDIA GPUがサポートするNVFP4精度にネイティブ対応するバージョンも公開中。GeForce RTX 5090 / 4090向けの量子化を行って消費者向け製品との互換性を維持しつつ、Hopper / Blackwell採用のエンタープライズ環境、NVIDIA DGX SparkやDGX Station、RTX PROシリーズのようなデスクトップ製品でも利用可能だ。構築にはNVIDIA NIMも活用できる。

Congrats to @GoogleDeepMind on the launch of DiffusionGemma.

The model generates 256 tokens in parallel per step, delivering 150+ TPS on DGX Spark, and 1,000+ TPS on a single H100.

We're supporting it from day one with:
• BF16 and NVFP4 checkpoints on @huggingface🤗
• Free… https://t.co/0xqMXKvMQV
— NVIDIA AI (@NVIDIAAI) June 10, 2026