「Trinity」アーキテクチャ徹底研究!! 第二世代のAMD AシリーズAPUを試す

■ D-Cache Latency(グラフ63～78)

D-Cacheの全体的なLatencyは先ほどグラフ53～58で示した通りだが、L1/L2の領域をもう少し細かくみたのがこちらである。Method 1とMethod 2があるが、どちらもL1/L2の最小Latencyを求めるための方法論のひとつと考えてもらえれば良い。

さて結果である。まずL1だが、Method 1/2ともにA8-3870Kは3cycle、FX-4100は4cycleで決まり。A10-4600MはTurboが良く効くこともあってかかなり暴れているが、概ね4cycle程度とみなせる。グラフ67～70ではややFX-4100との値の乖離が目立つが、NOP Countが増えると相対的にLatencyが増え、(待ちが増えるため)Turboが効きにくくなる事を考えると、補正値はやや効き過ぎで、実際はもう少しFX-4100に近い値になるだろうと考えられる。

面白いのはL2に関してである。まずMethod 1(グラフ71～74)を見ると、NOP Countが少ないときは多少暴れるが、長期的には大体4～5cycleで収まるようで、これはCPUを問わない。L2 Hitというのは要するにL2→L1→CPUコアという形でデータが送られるわけで、最初はオーバーヘッドの分レイテンシが増えるが、連続してデータを送っていればオーバーヘッドの分は消えて純粋に転送のLatencyのみになるということで、これはまぁ判る。このケースだと、Random/Pseudo-RandomでFX-4100やA10-4600MのLatencyがA8-3870Kより増えているが、逆にこの2つはほぼ同等とみなして良さそうだ。

またMethod 2(グラフ75～78)にすると、やはり概ね同等という結果はL1と変わらないのだが、NOP Countが20あたりまでなぜかLatencyが不規則に上下する。この上下の仕方がFX-4100とA10-4600Mではまるで変わらないあたり、この辺はBulldozerそのままという事を物語っているようだ。