D-Cache Latency(グラフ63~78)

D-Cacheの全体的なLatencyは先ほどグラフ53~58で示した通りだが、L1/L2の領域をもう少し細かくみたのがこちらである。Method 1とMethod 2があるが、どちらもL1/L2の最小Latencyを求めるための方法論のひとつと考えてもらえれば良い。

さて結果である。まずL1だが、Method 1/2ともにA8-3870Kは3cycle、FX-4100は4cycleで決まり。A10-4600MはTurboが良く効くこともあってかかなり暴れているが、概ね4cycle程度とみなせる。グラフ67~70ではややFX-4100との値の乖離が目立つが、NOP Countが増えると相対的にLatencyが増え、(待ちが増えるため)Turboが効きにくくなる事を考えると、補正値はやや効き過ぎで、実際はもう少しFX-4100に近い値になるだろうと考えられる。

面白いのはL2に関してである。まずMethod 1(グラフ71~74)を見ると、NOP Countが少ないときは多少暴れるが、長期的には大体4~5cycleで収まるようで、これはCPUを問わない。L2 Hitというのは要するにL2→L1→CPUコアという形でデータが送られるわけで、最初はオーバーヘッドの分レイテンシが増えるが、連続してデータを送っていればオーバーヘッドの分は消えて純粋に転送のLatencyのみになるということで、これはまぁ判る。このケースだと、Random/Pseudo-RandomでFX-4100やA10-4600MのLatencyがA8-3870Kより増えているが、逆にこの2つはほぼ同等とみなして良さそうだ。

またMethod 2(グラフ75~78)にすると、やはり概ね同等という結果はL1と変わらないのだが、NOP Countが20あたりまでなぜかLatencyが不規則に上下する。この上下の仕方がFX-4100とA10-4600Mではまるで変わらないあたり、この辺はBulldozerそのままという事を物語っているようだ。