Sandra 2010 Engineer Edition(グラフ1~9)

SiSoftware
http://www.sisoftware.co.uk/

まずは生の絶対演算性能、ということでDhrystone(グラフ1)とWhetstone(グラフ2)。これらのテストはマルチスレッド化されているから、当然Turboの効用は薄い(全コアがフルに動いている)し、X6 1090T(2.4G)も、殆どがキャッシュで収まっていることもあってか目だった性能差は見られない。それにしても3.2GHz駆動の6コアでも、2.8GHz駆動の4コアに微妙に負けているというあたりが、絶対的な性能の差を明確に示しているとは言える。まぁCore i7-860の方はHyperThreadingの効用で多少性能が伸びている(以前のテストの結果を見る限りでは、20%程度の伸び代が期待できる)から、これを勘案すると同一周波数の場合、Core i7のコアはPhenom IIのコアに比べて5割程度高速ということになるだろう。とはいえ、その分Phenom II X6はコア数を1.5倍にして性能差を埋めたともいえる訳だが。ちなみにCore i7-930とのギャップは、やはりメモリアクセスの帯域が大きく異なるから、と言ってよいだろう。

ただDhrystone/Whetstoneではやや遅れをとっているPhenomII X6だが、グラフ3のMulti-Media Benchmark(要するにマンデンブロ図形の描画)では逆にCore i7を大きく突き放す結果になっているのが面白い。こと.NET環境ではCore i7の方がやや高速に仮想マシンを動作させられるようだが、x86やJavaではPhenom IIが優勢であり、4コアのPhenom II X4 965ですらCore i7と大きな差がないのは非常に興味深い。

もう一つ、グラフ4はCryptgraphyの結果である。こちらもCore i7系に比べてPhenom II X6の優位性が目立つ。要するに、マルチスレッド化が十分になされているものを実行する場合、同価格帯のCore i7と同等レベルの性能をたたき出す事が可能、ということがここから読み取れる。

次にMulti-Core Efficiencyである。グラフ5がOverallだが、HyperThreading環境に有利なベンチマークなので、Core i7系が圧倒的に高いスコアとなっているが、問題はそれよりもNX6 1090T(2.4G)の結果である。明らかにLatencyが減り、Bandwidthが増えていることが判る。そこでDetail(グラフ6)を見てみると、64×8KBあたりまでは、全く差がない。明確に変わるのは16×128KB、つまりL1/L2 Cacheが飽和してL3 Cacheを使い始めるあたりで、ここで明確にBandwidthが伸びている。64×128KB、つまりL3 Cacheも飽和してメモリアクセスに入ると殆ど差がなくなっているので、これはL3キャッシュの高速化がスコア改善に繋がった、と判断できる。

この傾向はCache & Memory Testでも見えてくる。グラフ7はOverallなのでちょっとグラフが重なっていてわかりにくいかもしれないが、1MB~1GBの範囲を抜き出したグラフ8を見ると、明確に4MBのときのスコアが伸びており、L3の帯域が増えていることが判る。

LatencyについてもLinear(グラフ9)、Random(グラフ10)の両方で、X6 1090T(2.4G)は1MB~4MBのLatencyが低く収まっており、これがその後も影響していることが見て取れる。このあたりの理屈については後述したい。

ところで最後に一つ面白い結果を。SandraのVideo Memory Bandwidthの結果をグラフ11に示す。このテストは、Sandra 2009あたりから追加されてきたGPU関連ベンチマークの一つで、今回の場合DirectX 10/10.1/11の各APIを使い、

  • GPUのメモリ内部でのデータ転送(Internal Memory)
  • Host→GPUへのデータ転送(System to Device)
  • GPU→Hostへのデータ転送(Device to System)

の転送速度を算出するものだ。グラフ11は、3つのAPIにおける結果の平均をまとめて示している。今回はGPUをRadeon HD 5870で統一してるから、本来は数字がばらつくことは無い筈で、実際Internal Memoryのスコアはこれを物語っている。ただ、System to DeviceやDevice to Systemでは、ひょっとしてNB/HTLinkを2.4GHz駆動としたことで若干スコアが向上するか? と思って試したものだ。結果から言うとこうした話はなく、むしろ微妙に転送速度が下がっていたりするのだが、それはともかくとして。興味深いのは、System to DeviceはAMD 890FX系が概ね5GB/sec、Intel系が4.6GB/sec程度で、理論値の8GB/secからはちょっと遠いが、まぁ悪い数字ではない。ところがDevice to Systemを見ると、AMD 890FXが(これは多分にバラつきがあるが)それでも3~4GB/secのオーダーを維持しているのに対し、Intel系は370MB/sec程度と、AMD 890FXに比べて一桁低いオーダーに留まっているのはなかなか興味深いスコアである。単にAMDのGPU(というか、Radeon HD 5870)との相性なのか、ドライバの問題なのか、もっと他の理由があるのかまでは今回は追えない(これを確認するには、少なくとも他のグラフィックスカードや、あるいはグラフィックスカード以外のデバイスを使ってのテストが必要だろう)が、とりあえず今回の構成の限りではIntelのP55やX58に対するAMD 890FXのアドバンテージと考えて良いだろう。