Radeon RX 6900 XTを試す - RTX 3090と最強対決、更に新世代GPUを総ベンチマーク

◆PCMark 10 v2.1.2506(グラフ104～109)

PCMark 10 v2.1.2506
UL Benchmarks
https://benchmarks.ul.com/pcmark10

グラフ104

グラフ105

グラフ106

グラフ107

グラフ108

グラフ109

Game Benchmarkはこの程度にして、最後にその他を色々。まずはお約束でPCMark 10。ここのPCMark 10の考察で書いた、OpenCL系が苦手という傾向は今回も遺憾なく発揮され(?)、SpreadSheetの結果が軒並み半分近い(グラフ107)ということで、Overall(グラフ104)では妙な差がついているが、これを除けば概ね同等というか、変な結果は一切出ていないことが判る。まぁここで変な結果が出たらまずいのだが。

◆TMPGEnc Video Mastering Works 7 V7.0.18.20(グラフ110)

TMPGEnc Video Mastering Works 7 V7.0.18.20
ペガシス
http://tmpgenc.pegasys-inc.com/ja/product/tvmw7.html

前回は時間の関係で割愛した、内蔵Media Encoderの性能比較。手順としてはここのTMPGEnc Video Mastering Works 7と同じく、AMDにはAMD Media SDKを、NVIDIAにはNVENCをそれぞれ指定して、4ストリームの4K VP9動画を4K HEVC動画にトランスコードする速度を比較した。GeForce RTX 3090であっても、同時エンコードは2ストリームまでになっており、一方Radeon RX 6000シリーズは4ストリームでも同時エンコード可能ということで、4 StreamはRadeon RX 6000シリーズのみになっている。

グラフ110

ということで結果は御覧の通りである。面白いのはRadeon RX 6900 XTが一番高速なことで、コアの動作周波数そのものは変わらないのになぜRadeon RX 6800 XTより高速なのかが今一つ判らない。まぁそれはともかく内蔵エンコーダはAMDの方が今のところ優秀、という結果になった。もっともこれ速度だけの比較なので、画質とかを言い始めるとまた難しい比較になるのだが。

◆Sandra 20/20 2020.11.30.80(グラフ111～121)

Sandra 20/20 2020.11.30.80
SiSoftware
https://www.sisoftware.co.uk

グラフ111

グラフ112

性能比較の最後はこちらを。まずGPGPU Processing(グラフ111・112)では、Half PrecisionだとCUDAを利用した場合にGeForce RTX系が高速だが、OpenCLだと同等。Single PrecisionだとなぜかRadeon RX 6000系が性能が芳しくないが、逆にDouble PrecisionだとGeForce RTX系をぶっちぎり、という傾向がそのまま継承されている。ただSingle/DoubleでRadeon RX 6800XTとRadeon RX 6900XTの性能比を見ると7～14%程度でしかなく、CUの数の比を考えればもう少し性能が上がっても良いのに、と思わざるを得ない。

グラフ113

グラフ114

グラフ115

AES Encryption/Decryption(グラフ113・114)はまぁ同じ傾向で、Radeon RX 6900XTはGeForce RTX 3080は超えたもののGeForce RTX 3090に辿り着くには至らずというところ。面白いのは次のHasing(グラフ115)で、SHA-1とSAH2-256でRadeon RTX 6800 XTとRadeon RTX 6900 XTがほぼ同じ性能(300GB/sec)というのは、要するにInfinityFabricがボトルネックになっている、という事と思われる。SHA2-512でRadeon RX 6000系が芳しくないのは持病というかこれまでも同じ傾向だったので不思議ではないが、ここでもRadeon RTX 6800 XTとRadeon RTX 6900 XTがかなり近いというか、Radeon RTX 6900 XTが頭打ちになっている気がする。

グラフ116

グラフ117

グラフ118

グラフ116～118がFinancial Analysisであるが、3つに共通して

Single PrecisionだとGeForce RTX 3000シリーズが優位
Double PrecisionだとRadeon RX 6000シリーズが優位

という傾向は、そもそもTensor Coreを使ってSingle Precisionの計算が可能なGeForce RTX 3000系が有利という事を考えれば不思議ではない。それはいいのだが、Black-Scholesの結果(グラフ116)でRadeon RX 6000系3製品がそろって14.2GOPT/secのスコア、というのはもうCUではなく何か他のものがボトルネックになっている気がする。多分これもInfinityCacheではないかと筆者は考えるのだが。

グラフ119

グラフ120

グラフ121

最後にグラフ119～121がScientific Analysisであるが。こちらも傾向は近い。ただGEMM(グラフ119)とN-Body(グラフ121)はまぁ順当な結果なのだが、FFT(グラフ120)のみまたRadeon RX 6000系3製品がほぼ同じ性能になっている。FFTの場合、バタフライ演算を行う関係で猛烈な量のメモリアクセスが発生する。生データを見ると、FFT実施時のBlock Sizeは128MB。つまりInfinityCacheがフルにデータで埋まっている状態である。これを超えるとメモリアクセスになるので性能が激減する。要するにここではInfinityCacheの「容量」がボトルネックになっていると判断できる。

ちなみに先ほどまでGame Testで頻発した「2K解像度だと性能が高いのに、4Kまで上げると性能が急速に落ちる」のは、むしろInfinityCacheの「帯域」が足りてないのではないかと筆者は考える。もっとも何で帯域が足りないかと言えば、結局容量が不足してGDDR6をアクセスする必要が出て、これが足を引っ張るからで、その意味ではやはり容量の問題ともいえなくもないのだが。