RightMark Memory Analyzer 3.8(グラフ26~42)

cpu.rightmark.org
http://cpu.rightmark.org/

ではRMMAである。今回の場合、CPUコアそのものはそれほど手が入っていないと明言されていることもあり、もっぱらキャッシュ周りの動作を確認することにしたいと思う。ちなみにこれはPhenom IIとLlanoの差を見るということで、テスト結果はこの2つに絞らせてもらった。Llanoの方はCrossFire環境で統一している。またPhenom II/Llano共に1.4GHz駆動とし、Llanoの方は先に説明したとおり生データと、1.4GHz相当に補正したもののの両方の結果を示している。

まずグラフ26がNOP、グラフ27がPrefixed CMP #4のDecode Bandwidthである。NOPの場合1Bytes/命令だから最大でも3Bytes/cycleという帯域になる筈で、結果もこれを満たしている。興味深いのは1MBを超えた領域で、Llanoの帯域は補正後でおおむね1.5Bytes/cycle程度になっていること。メモリアクセスの場合の帯域はおおむねこの程度に収まるということだ。

一方Prefixed CMP #4は8Bytes/命令のもので、実際の結果を見ると24Bytes/cycleには微妙に及ばないが、それでも23Bytes/cycle強の帯域が確保されている。また64KBを超えるあたりから1MB超えるあたりまで4Bytes/cycleが維持されている。これらの事から、

  • デコーダの帯域は3命令/cycle(Phenom IIと一緒)
  • 命令L1キャッシュの帯域も24Bytes/cycleは確認できており、おそらく32Bytes/cycleが可能(これもPhenom IIと一緒)
  • L2キャッシュの帯域は4Bytes/cycle(これもPhenom IIと一緒)

といったことが確認される。

命令L1系はおおむね同じと判ったので、次はデータL1系である。グラフ28~30がこちらであるが、これはSSE2を使ってのRead/Write/Copyの各操作を行った場合である。グラフを見ていただければ判るとおり、Llanoの補正後のグラフとPhenom IIのグラフは、3つとも512KBあたりまでほぼ完全に一致しており(グラフ30では、L1の範囲で若干ばらつきが見られるが、どちらも平均すれば9Bytes/cycle強といったところで、これは誤差の範囲だろう)、結果として、

  • データL1キャッシュの帯域も32Bytes/cycleが可能(Phenom IIと一緒)
  • L2キャッシュとの帯域はやはり4Bytes/cycle(これもPhenom IIと一緒)

といったことが確認される。Zacateではこのあたりが非対称(データアクセスはやや絞られていた)だったが、LlanoではPhenom IIの構造をそのまま継承していることが確認された。