Hot Chips 27 - AMDの次世代GPU「Fury」(2) 前世代のHawaii比で性能/電力を1.5倍改善

Fury GPUのブロックダイヤと諸元

次の図はRadeon R9 Furyのブロック図と諸元をまとめたものである。

全体として4基のShaderEngineがあり、それぞれのShader Engineは、ジオメトリプロセッサとラスタライザ、そして16個のCUと4個のRB(Render Backend)を含んでいる。

上辺にはグラフィックのコマンドプロセサとホストCPUからのコマンドを実行する「ACE(Asynchronous Compute Engine)」などが置かれ、左辺にはL2キャッシュと8個のメモリコントローラ、右辺にはビデオやオーディオのプロセサや各種I/Oが描かれている。なお、これはチップの構成を示すブロックダイヤであり、チップ上の各ブロックのレイアウトを示すものではないので注意が必要である。

Radeon R9 Furyのブロック図と諸元

Furyはハイエンドのゲーマー向けのGPUで、ジオメトリ計算は毎サイクル4プリミティブ、描画は毎サイクル64ピクセルを処理することができる。シェーダ―部は64CUを持ち、毎サイクル4096演算を行える。そして、L2キャッシュの容量は2MBで、メモリはHBMを搭載している。

このGPUは、前世代のR9 290X(Hawaii)と同じTSMCの28HPXプロセスで作られているが、クロックゲートの改良などで消費電力を減らし、Hawaii GPUと比較すると性能/電力は1.5倍に改善しているという。

Furyの演算性能は?

R9 FuryとR9 290Xを比較すると。単精度の浮動小数点演算性能は5.6TFlopsから8TFlops以上と40%あまり向上している。メモリバンド幅も320GB/sから512GB/sと1.6倍になっている。その他にテクスチャの処理速度や面積当たりの浮動小数点絵算性能の密度も改善している。これらの改善に加えて、L2キャッシュを1MBから2MBに増やしたこともあり、チップ面積は438mm²から593mm²に増加している。

Radeon R9 FuryとR9 290Xの性能などの比較

HBMの採用で、GPU+メモリのプリント板占有面積が1/3となったことから、従来より小型のユニットが作れるようになった。しかし、小型になると放熱が問題となるので、水冷のコールドヘッドをGPUチップに取り付けるという冷却で、GPU温度を50℃程度に抑えている。GPUを冷却した水はファンの付いたクーリングユニットに送られて冷却されて循環するクローズドループの冷却系となっている。クーリングユニットは広い面積で冷やすので、大きなファンを使って遅い風速で冷却でき、NVIDIAのGTX Titanが45dBAの騒音であるのに対して、Furyは32dBA以下であるという。

Furyはクローズドループの水冷を使い、GPU温度を約50℃に抑えている。別の箱に大きなファンを備えた冷却器があり、低騒音で冷却できるようになっている

また、AMDは消費電力を275Wから175Wに下げたR9 Nanoも製品化しており、こちらはファンをGPUの上に付けた空冷である。175Wであるので、PCIeの8ピンコネクタ1個で電力供給ができる。

PCIeカードの奥行きは153mmと短く、Furyと比べて、最大2倍の性能密度である。また、性能/WでもFuryと比べて最大2倍であるという。

消費電力を175Wに下げ、空冷で小型化したR9 Nano。性能密度はFuryと比べて最大2倍。性能/Wも最大2倍となっている

次の図は、Fury、Nanoと従来のHawaiiベースのGPUでの、ゲームの画面表示速度(frames/s)の性能比較で、Furyは42fps、Nanoは33fps、Hawaiiは31fps程度となっている。この性能から見ると、Furyのクロックが1000MHzとすると、Nanoのクロックは750～800MHz程度と推定される。これに電源電圧の低減を加えれば、175Wは達成できそうな数字である。

一方、性能/Wでは、Furyは130に対して、Nanoは190と1.46倍になっている。前世代のHawaiiは100でFuryは1.3倍、Nanoは1.9倍の効率である。