RightMark Memory Analyzer 3.8
一応ボトルネックがCPUの側でなく、メモリコントローラ(or QPI)の側にあることを確認するために、RMMAも簡単に実施してみた。まず繰り返しになるが、D/Cache-RAM BandwidthをSSEを使って行った結果がグラフ48~50である。どのグラフでも4MB、つまりClarkdalaがL3 Hitする範囲まではほぼ完全に同一な結果となっているが、その先で急激に落ちていることが判る。ReadではLynnfieldが5Bytes/cycle程度なのに3Bytes/cycle、WriteはLynnfieldが3Bytes/cycle弱なのに対し2Bytes/cycle、Copyは1.5Bytes/cycle程度まで悪化している。こうした差が明確なのは4MBを超えた先のみである。
次はLatencyである(グラフ51~54)。意外なのは、L3キャッシュに関しても若干ClarkdaleのLatencyが増えていることだ。またメモリアクセスに入ると、どのパターンでもLynnfieldのきっちり倍のLatencyになっており、こうした部分が性能に影響を及ぼしていると言えよう。
ちなみにグラフ55にPrefiexed CMP #1のDecode Bandwidthを測定してみたが、これもL3が終わるまではほぼLynnfieldとClarkdaleが同一のカーブとなっており、少なくとも簡単に試せる範囲ではパイプラインには変更が無いだろうと想像できる。やはり問題はメモリコントローラであった。