NVIDIA、Llama 3.1 405Bモデルの学習を約10分で完了 - MLPerf Training v5.1テストで記録更新

米NVIDIAは11月12日（現地時間）、同社ブログを更新する形でMLPerf Training v5.1を用いたベンチマークテストの結果について言及した。推論にNVFP4を活用したことでBlackwellアーキテクチャの真価を引き出し、高効率なスケールを実現したとしている。

NVIDIA、Llama 3.1 405Bモデルの学習を約10分で完了 - MLPerf Training v5.1テストで記録更新

MLPerf Training v5.1は、推論・学習性能の計測に用いられる業界標準テストスイートにおける最新バージョン。このバージョンではNVIDIAが採用を推し進めるNVFP4精度も採用されている点が特徴で、これによって対応するNVIDIA製アクセラレーターでは推論処理の大幅な高速化が行われているという。

通常FP4のような低い精度ではMLPerf Trainingに準拠する結果を出力できないため、より計算負荷が大きな精度で処理されることが多い。NVIDIA Blackwellアーキテクチャでは独自のNVFP4に加え、各種FP4演算にネイティブ対応したことで精度を基準に適合させ、そのうえで大幅な高速化が図られている。今回提出した記録ではLlama 3.1 405Bモデルの学習に2,560基のBlackwell GPUを活用し、18.79分という学習速度を実現。前回2,496基のBlackwellシステムで実施した際よりも45%も速くなっている。

なお、MLPerf Training v5.1では従来用いられていたBERTモデルに代わってLLM「Llama 3.1 8B」を採用したほか、画像生成モデルもStable Diffusion v2からFLUX.1に置き換わっている。既存のグラフニューラルネットワーク、物体検出、推薦システムの各テストでも最高記録を達成し、7つのテストスイートすべてで最高記録を維持している。

In the latest #MLPerf Training v5.1 round, NVIDIA swept all seven benchmarks.

The NVIDIA Blackwell Ultra GPU made its MLPerf Training debut, delivering large leaps for LLM pretraining and LLM fine-tuning performance, supercharged by the world’s first FP4 training submissions… pic.twitter.com/tByMv3Cawe
— NVIDIA (@nvidia) November 12, 2025