Intel Optimized SMP LINPACK Benchmark package Version 11.3.0.004(グラフ9~12)

Intel
http://software.intel.com/en-us/articles/intel-math-kernel-library-linpack-download/

Intel謹製ベンチマークは相変わらずIntel以外のCPUでは動作しないので、ここではGodavariは抜いてHaswell vs Broadwellということでご紹介する。まずグラフ9と10が平均性能だ。

HaswellがSize/LDA共に2000を超えたあたりから伸びが鈍くなりつつも、Size/LDA=40000あたりまで微妙に伸び続けるあたり、真の限界性能はもう少し上という感じだ。ちなみにHaswellについて、やっと最近ドキュメントが整備され、16GB MemoryだとLDA/Sizeが共に40000が上限だと分かった。実際試しにLDA/Size=50000を設定してみたら、20GFlops近くまで性能が落ち込んだ。なので限界性能の測定にはもう少しメモリを積む必要がありそうだ。

対してBroadwellは若干低めでしかも比較的フラットなのは、L4キャッシュがうまく作用しているという言い方もできるが、逆にこのL4キャッシュの帯域が事実上のボトルネックになっている気もする。

グラフ11・12はピーク性能をプロットしてみたが、こちらもほぼ平均性能と同じ結果に落ち着いており、おおむねこのあたりがHaswellコアとBroadwellコアの実力、というところか。

生の数字で言えば、Size/LDA=40000の場合、外部GPU構成だと

  • Haswell :233.1869 GFLOPS
  • Broadwell:197.3787 GFLOPS

で、これはほぼTurbo動作時の周波数比と同じ比率になっており、ほぼセオリー通りとして良いだろう。