Bulldozer世代の8コアCPU「AMD FX」"Zambezi"徹底攻略 - アーキテクチャ解析編

さて、次はD-TLB同様にAssociativityである。まずNear Jumpの16 Entry(グラフ82～84)では、L1 I-TLBがちゃんと仕事をしているようで、AMD FXのLatencyはPhenom II同様にほぼ一定に収まっている。ところがNear Jumpの32 Entry(グラフ85～87)では23EntryからいきなりLatencyが増えるというちょっと謎仕様になっている。L1 I-TLBはFully Associativityだから、本来こんなグラフになる筈がないだけにちょっと謎である。もっと激しく暴れ始めるのがNear Jumpの64 Entry(グラフ88～90)や128 Entry(グラフ91～93)で、特に24 Entryまでの挙動を見ると、Exclusive構成をとっていたPhenom IIはともかく、Inclusive構成のAMD FXでどうしてこういうグラフになるのか正直よく判らない。ただこの構成はNear Jumpのみならず後で出てくるFar Jumpでも全く同じ挙動を示しているので、たまたまとかいう話ではなく、メカニズム的にこうなる何かがあるのだろう、というのは間違いない。まぁそれでも均すとCore i7よりはLatencyが少なめに収まっているから、これはこれで良いのかもしれないが。

ということで、次はFar Jumpのケース。16 Entry(グラフ94～96)や32 Entry(グラフ97～99)はほぼNear Jumpと同一。違うのは32 EntryのRandom(グラフ99)で、27 Entry目に妙なスパイクがある程度だろうか。64 Entry(グラフ100～102)あたりになると、大まかな形状は同一だが、細かくみると多少は違いがある。とはいえ、基本的には大差ないというあたりか。これは128 Entry(グラフ103～105)も同じである。

どうもI-TLBの動きは、かなり謎が多い。共有L2 TLBまで含めると三段階のTLBという重厚な構成で、結果としてCore i7などと比べるとLatencyが少なく構成されているのは間違いないのだが、Bulldozerのコンセプトを考えるとむしろD-TLBの高速化の方が重要な気がしなくもない。そのあたりのミスマッチも含めて、まだTLB周りの最適化の余地はかなり残っているのではないか? という気がする結果であった。