スペック表から読み取る"赤"と"緑"の思惑
こうした両社の基本戦略の違いは、双方の製品のスペックにおぼろげに現れている。
順番に見ていくことにしよう。
トランジスタ数はGeForce GTX 4x0は約30億個で、Radeon HD 58x0の21.5億個の約1.5倍に相当する規模となっている。Radeon HD 58x0も先代のRadeon HD 48x0の9億5600万個から比較すれば二倍以上の規模拡大が行われているのだが、"大艦巨砲主義戦略"を取るNVIDIAと比較すれば若干控えめだ。ちなみにNVIDIAは先代のGeForce GTX 280が14億トランジスタだったので、こちらも2倍強の規模拡張を行ったことになる。
両社共に先代時と同じ戦略を取っているので、そのプロセッサ規模は倍々ゲームになっても、その規模比率は約1.5倍が維持されているわけだ。
製造プロセスルールは両社共に40nmを採用している。先代では、NVIDIAは、競合よりも枯れた一世代前の製造プロセスで臨んだが、今世代では両社の足並みが揃った。もっとも30億トランジスタという大規模な物理設計は、先代の製造プロセスルールに填るはずもないのだが。
ダイサイズはRadeon HD 58x0が334平方mm程度、GeForce GTX 4x0は576平方mm程度だとされている。チップサイズもGeForce GTX 4x0の方が大きい。
プロセッサ規模の関係もあって、GPUコアの動作クロックはRadeon HD 58x0の方が高クロックだ。しかし、GeForce GTX 4x0は、シェーダコアのみを、マルチクロックドメインアーキテクチャによりコアクロックの2倍近い周波数でドライブさせている。
汎用シェーダコアの数については、Radeon HD 5870が先代の2倍の1600基、GaeForce GTX 480も先代の2倍の480基となった。なお、汎用シェーダユニットの設計思想が違うため、「1600基対480基」の比較は意味を持たないため言及はしないが、それぞれの設計思想については後述する。
■2010年5月時点の最新GPU基本スペック比較(一部筆者推測) | |||
▼NVIDIA トップエンドモデルラインナップ | |||
GeForce GTX 480 | GeForce GTX 470 | GeForce GTX280 | |
---|---|---|---|
プロセスルール | 40nm | 40nm | 65nm |
トランジスタ数 | 30億 | 30億 | 14億 |
コアクロック | 700MHz(1.401GHz※1) | 607MHz(1.215GHz※1) | 602MHz(1.296GHz※1) |
メモリクロック(データレート) | 3.696GHz | 3.348GHz | 2.214GHz |
ビデオメモリタイプ/容量 | GDDR5 SDRAM 1536MB | GDDR5 SDRAM 1280MB | GDDR3 SDRAM 1024MB |
メモリバス幅 | 384bit | 320bit | 512bit |
メモリバンド幅 | 177.4GB/sec | 133.9GB/sec | 141.7GB/sec |
シェーダバージョン | 5.0 | 5.0 | 4.0 |
汎用シェーダ数 | 480 | 448 | 240 |
ROPユニット数 | 48 | 40 | 32 |
フィルレート | 336億テクセル毎秒 | 242億8000万テクセル毎秒 | 192億6400万テクセル毎秒 |
最大消費電力 | 250W | 215W | 236W |
※1マルチクロックドメイン設計のため汎用シェーダは別クロックで動作する |
■2010年5月時点の最新GPU基本スペック比較(一部筆者推測) | ||||
▼ATI トップエンドモデルラインナップ | ||||
Radeon HD 5870 | Radeon HD 5850 | Radeon HD 4870 | Radeon HD 5970(参考) | |
---|---|---|---|---|
プロセスルール | 40nm | 40nm | 55nm | 40nm |
トランジスタ数 | 21億5000万 | 21億5000万 | 9億5600万 | 21億5000万×2 |
コアクロック | 850MHz | 725MHz | 750MHz | 725MHz |
メモリクロック(データレート) | 4.8GHz | 4.0GHz | 3.6GHz | 4.0GHz |
ビデオメモリタイプ/容量 | GDDR5 SDRAM 1024MB | GDDR5 SDRAM 1024MB | GDDR5 SDRAM 512MB | GDDR5 SDRAM 1024MB×2 |
メモリバス幅 | 256bit | 256bit | 256bit | 256bit×2 |
メモリバンド幅 | 153.6GB/sec | 128.0GB/sec | 115.2GB/sec | 128.0GB/sec×2 |
シェーダバージョン | 5.0 | 5.0 | 4.1 | 5.0 |
汎用シェーダ数 | 1600 | 1440 | 800 | 1600×2 |
ROPユニット数 | 32 | 32 | 16 | 32×2 |
フィルレート | 272億テクセル毎秒 | 232億テクセル毎秒 | 120億テクセル毎秒 | 232億テクセル毎秒×2 |
最大消費電力 | 188W | 170W | 160W | 294W |
プロセッサ規模の違いは消費電力の差異にも結びつく。Radeon HD 5870は188Wに対して、GeForce GTX 480は250W。両社共に大きいが、GeForce GTX 480の大きさに目が行く。余談だが、GeForce GTX 480の250Wと言う消費電力は50インチクラスの液晶テレビと同じ消費電力だ。この消費電力の高さもあって、PC上に搭載する際にはGeForce GTX 480の方はPCI Express外部電源を8ピンコネクタと6ピンコネクタで供給しなければならない。対するRadeon HD 5870は6ピンコネクタ×2を接続すればOKだ。ただし、ハイエンド品として追加されたデュアルGPUカードのRadeon HD 5970は消費電力は300W近くになるため、GeForce GTX 480と同じ、8ピン+6ピンでの供給となる。
採用ビデオメモリは今回は両社共にGDDR5 SDRAM(SGRAM)を採用している。
先代の時は、NVIDIAはGeForce GTX 280に枯れたGDDR3を採用する代わりに、ビデオメモリバス幅を512bitとし、ATIはRadeon HD 4870に当時は先進技術だったGDDR5を採用するも、バス幅は256bitに抑えていた。
今世代ではGDDR5で足並みが揃ったわけだが、搭載ビデオメモリの量や速度で両社の違いが見られる。
NVIDIAはGDDR5とはいえ、枯れた世代のデータレート3GHz台のものを用いる変わりに、搭載ビデオメモリ量を1.5GBという大容量とした。対して、ATIは最新世代のデータレート4GHz台のものを採用するが、搭載量は1.0GBに留めている。
ビデオメモリ帯域はGeForce GTX 480は384bitとなり、先代から128bit分狭くなってしまった。しかし、GDDR5の採用でデータレート向上しているため、バースト転送時の最大メモリ帯域は25%ほど先代より向上している。Radeon HD 5870は先代と同じ256bitバスから変わりが無く、メモリ帯域の向上は実質的に採用メモリの動作クロックに比例する形となっている。
レンダリング結果等を最終的にビデオメモリへ出力する処理を担当するROP(Rendering Output Pipeline)ユニットは、GeForce GTX 480が先代から1.5倍増の48基となり、Radeon HD 5870は先代から2倍化され32基となった。
ROPのスループット性能は、ビデオメモリバス幅、ひいてはビデオメモリの帯域性能と密接な関わりを持つので、少し考察してみよう。1ROPあたりの負荷率をメモリバンド幅÷ROP数で計算してみると、先代は、Radeon HD 4870は7.2GB/sec、GeForce GTX 280は4.4GB/secとなる。今世代ではRadeon HD 5870が4.8GB/sec、GeForce GTX 480が3.7GB/secとなり、値は両者共に下がっている。先代を基準に考え、なおかつ今世代の両者のROPが先代と同等性能を持っていると考えれば、この値の低下の意味することは、ROPの立場で考えると「もっと高負荷にも耐えられるのに、メモリ帯域がそんなに上がらなかったので、メモリ書き出しの際に待たされることが多くなりそう」といった感じになる。
まとめると、「今世代はRadeon、GeForce両者共に、演算コアは増大し、ROP出力性能も上がったが、出力先となるメモリ出力速度(≒メモリ帯域)があまり向上しなかった」という感じになる。
「演算能力は倍々ゲームで向上するのにメモリ性能は20~30%程度しか上がらない」というジレンマは、CPUとメインメモリシステムの関係においてもよく取り沙汰されるテーマだ。CPUでは、この問題を解決するために、キャッシュシステムをリファインしてきた歴史を持つ。GPUでは、メモリアクセス時の待ち時間を隠蔽するために処理スレッド数を増加させる(並列度を上げる)アプローチを取ってきた。さすがに、このアプローチにも限界が見えてきたのか、今世代のGPUは、この問題のCPU的な解決手法である、キャッシュシステムの大幅なリファインに挑んでいる。この点についても詳細は後述しよう。