Sandra 2011 Engineer Edition(グラフ1~10)

SiSoftware
http://www.sisoftware.co.uk/

今年11月4日に2011年バージョンが突如発表された。今回はGPU周りのテストの強化(Media Transcodeのテストや、BDのテストなど)が主であるが、その一方でこんなトラブルも起きており、STREAM GPGPU Testのみならず、幾つかのGPU関連テストを無効にしないと動作しない状況になっている。もっとも上のリンクにもあるように、実際Sandra 2010 SP3でも同じ状況だし、Catalyst 10.9とか以前Radeon HD 6870を評価したときのPress Driverではちゃんと動作したから、これは(SiSoftwareが言うとおり)Catalyst側の問題っぽい。まぁ幸い今回はCPU側評価なので、GPU関連テストは無関係(というか、一応データは取ってみたのだがまったくCPUの違いでも結果に差がでなかった)ということで、あっさり省くことにした。

そんな訳でまずはArithmetic BenchmarkのDhrystone(グラフ1)とWhetstone(グラフ2)である。.NETあるいはJAVAの環境ではなぜか1100Tが1090Tにやや負けているという不思議な結果になっているが、ALUあるいはiSSE3ではほぼスペック通りの結果となっている。ここで1090T/1100Tの性能がそれほど伸びないのは動作周波数の差であり、実際動作周波数×コアの数を考えると、

X2 565 : X4 970 : X6 1090T : X6 1100T = 3.4×2 : 3.5×4 : 3.2×6 : 3.3×6 ≒ 1 : 2.06 : 2.82 : 2.91

といった性能差になる筈である。で、Dhrystone ALUが、

23.78 : 50.00 : 68.06 : 70.57 ≒ 1 : 2.1 : 2.86 : 2.97

Whetstone iSSE3が、

19.54 : 40.30 : 55.41 : 57.09 ≒ 1 : 2.06 : 2.84 : 2.92

というわけで、ほぼ理論値通りの結果になっているのが確認できた。

この傾向は、Multi-Media Benchmark(グラフ3)でも確認できる。相変わらず結果の桁数が2桁違うのでこれのみ対数表記とさせていただいているが、各々の数字を比較するとほぼ理論値に近い傾向になっていることが判る。Cryptography(グラフ4)もこれは共通だ。

さて、次のInter-Core Benchmarkはややテスト内容が変わった。Overallをグラフ5に、Detailをグラフ6にそれぞれ示すが、意外にもX4 970のスコアが一番良かったりする。これはグラフ6を見ると判りやすい。4×1MBの転送が、X2 565は完全オンキャッシュで可能だが、2コアだから転送は一対である。X4 970は4MB×2=8MBでL2までフルに使うと全てオンキャッシュで動き、しかも二対の転送が行える。対してX6 1090T/1100Tは12MBになり、L3も溢れてメモリアクセスが発生するので芳しくないという訳だ。この4×1MBの転送性能がそのまま結果に反映されたと見てよいだろう。

それ以外の部分は概ね動作周波数がそのまま反映されている感じのグラフになっている。

次にCache/Memory Bandwidth(グラフ7)である。こちらもほぼ512KBくらいまではほぼ理論値そのままといった感じで、そこからL3アクセスとなる分どんどん性能が低下し、64MBあたりではほぼキャッシュの性能が効かなくなって、メモリアクセス性能がそのまま反映されるカタチである。このメモリアクセス部分については、別途グラフ8を用意した。これはSSE2を使ったInteger/Floatアクセスの性能と、グラフ7で64MB~1GBにおけるスコアを抜き出して平均を取ったものである。X2 565のみややスコアが低いのは、2コアでは帯域を使い切れないため(これは後でRMMTの結果で詳しく見る)で、4コア以上ではほぼメモリ帯域がフルに使いきれているといったところだ。

最後にLatencyを見てみる。グラフ9がLinear Access、グラフ10がRandom Accessの結果であるが、コア自身がほぼ同一で差は動作周波数だけ、というものだけに、ほぼ同一傾向を示すという当然といえば当然の結果となった。