米NVIDIAは1月5日(現地時間)、開発者向けブログを更新し、ComfyUIやllamaなどに対して最適化を行ったと言及した。RTX 40より古い世代にも恩恵があるほか、GPUメモリからあふれてしまう場合にもスループットを改善するという。
ComfyUIではPyTorch-CUDAを通じて性能を最適化。NVFP4とFP8フォーマットへの対応を有効化して精度を維持しつつ、NVFP4では平均3倍、NVFP8で2倍もの大幅な高速化を実現したという。またこれらの精度に対応しないRTX 30などでもFP8での推論処理を高速化したほか、GPUメモリが限られた環境でもシステムメモリのレイテンシを隠してスループットを引き上げたとしている。コードはすでにComfyUIのkitchenリポジトリで公開されていて、LTX-2、FLUX.2、FLUX.1-dev、FLUX.1-Kontext、Qwen-Image、Z-Image等に適用できる。
また、SLMでもトークン生成速度が上昇。llamaではサンプリングアルゴリズムをGPUにオフロードできるようになったことで応答の品質や整合性を高めたとしており、RTX GPUでは最大15%、DGX Sparkでは最大65%もモデルのロード速度を引き上げたという。BlackwellシリーズではネイティブMXFP4サポートを追加して、最大25%高速なプロンプト処理を達成。Ollamaではメモリの管理方式を刷新し、クラッシュの回避やトークン生成速度の改善を行ったという。


