Intel Optimized Linpack Benchmark 11.1.2(グラフ21と22)

Intel
https://software.intel.com/en-us/articles/intel-math-kernel-library-linpack-download

意外に性能差が出たのがこちら。縦軸は基点が0ではなく65~70GFLOPSなので注意していただきたいが、それにしても意外な程に差が出た感がある。特にMaximumの値は、Sizeが小さいとほぼ一致しているのに5,000あたりから明確に分離しており、ある程度大規模なMemory Accessだとアクセス速度に差が出てくるのかもしれない。

今回のテストでは16GBのMemoryを実装しており、これを仮にフルで使いきれたとすると2G Element(2,147,483,648個)の値を格納できる。ただ実際には8スレッドの並行動作なので、1スレッドあたりのElementは256M(268,435,456個)で、これの平方根である16384個がSizeとしてはピークとなり、これを超えるとあまり性能が出ない事になる。

実際結果もそんな感じになっているのだが、ここでは明確に差が出ている。ではあまり差が出ないのはどのあたりかというとSize=4000程度で、この時の実Memory使用量はおおよそ1GB程度(4000×4000×8Thread×8Bytes≒0.95GB)と推定される。

つまり、Z97の現在のチューニングだと、大容量のMemoryを使った際の性能がやや低め(Z87に比べて1割ほど遅い)という傾向があるように思える。実際、先のSandraのテストは4GBどまりであり、それより大量のメモリを利用するケースのテストは行っていないので、この結果とは矛盾しないように思える。