Sandra 2011 SP1 Engineer Edition(グラフ1~21)

SiSoftware
http://www.sisoftware.co.uk/

さて、ではまずSandraから数字をみてゆくことにしたい。グラフ1、2はおなじみWhetstoneである。これらのテストではTurboが効きにくい(全コア一斉にフルで動くから、せいぜいGPUの分が多少Turboが掛かるだけ)で、1.5GHz4コアのLlanoが4コア8Thread 2GHz駆動のCore i7に大差をつけられるのはある意味当然でもある。なのでスコアとしてはまぁこんなものか、という気はする。ただ1.5GHz駆動のPhenom IIと比較したとき、ALU換算で1割弱の性能改善が見られている。これがTurboによるものか、それとも多少なりともIPC Improveが効果を及ぼしているのかはこれだけでは判断できないが、「同一周波数ならば」演算性能はPhenom IIと同等ということは言えるだろう。

次がMultimedia Benchmark(グラフ3)だが、Core i7の方はここでAVX命令をフルに使っている関係で、大幅に性能が伸びている。なので、Integer/Float/Doubleの結果を抜いて考えてもらうと、もちろんそれでもまだ性能差は大きいのだが、LlanoのスコアはCore i7とそう極端に違う、という訳でもない。またPhenom IIとの比較でも確実に性能が上がっていることがここからも読み取れる。

もう少し差が縮まるのがグラフ4のCryptographyである。Hasingに関しては、Core i7はAVX命令を使っている関係で多少差が開いているが、AES256に関しては2倍弱の性能差に収まっており、かなりLlano系が健闘していることが判る。またPhenom IIとの比較でも、Hasingでは最大15%強の性能改善があるなど、確実に性能を引き上げているのが判る。

ところで先にL2 Cache同士がDirect Connectで接続されているという話があったが、これの具合をグラフ5・6で確認してみた。グラフ5はMulti-Core EfficiencyのOverallである。縦棒はBandwidth、折れ線はLatencyをそれぞれ示している。LlanoとPhenom IIを比較した時、Latencyはやや増加しているが、帯域は多少なりとも改善されているのが判る。この様子は、グラフ6を観察してみるともっと明確である。4×64B~16×64KBあたりまでのデータ交換では、Llanoの帯域はPhenom IIの2倍~3倍程度になっており、これはTurboなどの効果では説明がつかない。4×1MBでは素顔が逆転しているが、これは大容量の共有L3を持っているPhenom IIの強みであって、その先は結局メモリアクセスになるからほとんどLlanoと差がない。またCore i7系は同一コア上で動くThread 2つの間でのデータ交換になっているから、こちらも比較基準にはならない。こうした観点で考えると、確かにLlanoではL2キャッシュ間での転送がずっと効率的になったと判断して良いだろう。

次にCache & Memory Bandwidthの結果をグラフ7に示すが、こちらはまぁほぼ大差ないというか、LlanoとPhenom IIの差は誤差の範囲としてしまってもいい程度だと思う。で、メモリアクセスに関する帯域を抜き出したのがグラフ8である。StreamのInteger/Floatの結果、それとグラフ7の64MB~1MBの結果をまとめている。

帯域的にはCore i7系が有利というのはこれまでもテストで明らかになっているのでそれはいいのだが、ちょっと面白いのはStreamとの結果の乖離である。Phenom IIの場合、Streamの結果とCache & Memory Bandwidthの結果がほとんど同じだが、LlanoとかCore i7ではStreamの方が高速である。これはデータの出し方に差があり、Cache & Memoryの方はSSE2のMove命令などでひたすらデータを転送する方法で、対してStreamでは整数/浮動小数点演算を行う際のパターンにあわせた転送性能を出してくれる。どちらが実際の利用場面に近いかといえば、(これも色々あるのだが)Streamの方がやや現実に近く、なのでここで性能がPhenom IIに比べて改善されているというのは喜ばしいことでもある。とは言え、同じDDR3-1333×2chの構成でも、片や15GB/sec、片や10GB/secだからまだLlano側に改善の余地があるのは間違いないのだが。

グラフ9・10はLatencyである。これについては、このテストで確認できる範囲においては「大きな差はない」というあたりだろうか。LlanoとPhenom IIを比較した場合、L2が1MBになっている分、1MBにおけるLatencyはずっと低いが、L3がない分4MBのLatencyはずっと増えるという、これもセオリーどおりのスコアになっている。このあたりは後ほど、RMMAでもう少し細かくみてみたいと思う。