Windows Centralは8月25日(米国時間)、「Old RTX 3090 beats new 5080 for AI|Windows Central」において、「Ollama」などのローカル環境向けAIモデル実行ツール(以下、ローカルAIツール)に最適なGPU製品の選び方を解説した。
最新GPUが最高のパフォーマンスを発揮するわけではないとし、製品選択の重要なポイントを明らかにしている。
AI処理のパフォーマンスを引き出す要素
生成AIなどに利用されている大規模言語モデル(LLM: Large Language Model)では、処理を高速化するために量子化と呼ばれる技術が使用されている。量子化はモデルの軽量化技術とされ、数値データの精度を低下させることで推論の高速化と消費メモリの削減を図っている。
AI処理においてGPUが重要とされる理由には、この量子化技術の採用がある。CPUは汎用的な計算を得意とし、精度の高い数値計算、比較処理、条件分岐などを実行することができる。これに対し、GPUは精度の低い数値計算を並列して処理することを得意とし、量子化した膨大な数値データをCPUよりも高速に計算することができる。
そのため、処理速度の早いGPUの導入がAI処理の高速化につながることになる。ところがWindows Centralは、GPUの性能よりもGPUカードに搭載されたVRAM容量のほうが重要な要素と指摘している。AIモデルはニューラルネットワークと呼ばれる脳の神経網を模倣した構造で成り立っている。ニューラルネットワークを模倣するAIモデルにはパラメーターと呼ばれる要素があり、その数は多いもので数十兆個にもおよぶとされる。
これらパラメーターを内包するAIモデルはそれだけ大量のメモリを消費するが、全体をVRAMに読み込めなければ、不足分をCPUおよびメインメモリで処理することになる。Windows Centralの実験によると、GPUがすべてを処理する場合と、CPU2割/GPU8割で処理する場合とでは、計算速度に約3.6倍の差があるとのこと。つまり、GPUの計算速度よりもVRAM容量のほうが結果に大きく影響することになる。
必要なVRAM容量はどれくらい?
Windows Centralは推奨されるVRAM容量を「予算が許す限り多く」と説明している。AIモデルのサイズはローカルAIツールの配布サイトなどで公表されており、すべてを読み込むにはその約1.2倍のVRAMが必要とされる。一例として、OpenAIのo3‑miniと同等と評される「gpt-oss:20b」を利用する場合は、モデルサイズ(14GB)の1.2倍、つまり16.8GBが必要となる。
16GBのVRAM容量があれば十分なパフォーマンスを期待できることになるが、Windows Centralはコンテキストウィンドウが8KBを超えるとVRAMからあふれるとし、快適な利用には16.8GB以上、つまり24GBが必要としている。
NVIDIA H200 NVL 141GBを購入できる予算があれば何も悩む必要はない。そうでない場合は、VRAM容量を優先し、次いでGPU性能を考慮することが最適な選択と言える。なお、OllamaはマルチGPU環境に対応しており、多少速度を犠牲にすることになるが、GPUカードを2枚装着することでVRAM容量を稼ぐことが可能とされる。
