「Trinity」アーキテクチャ徹底研究!! 第二世代のAMD AシリーズAPUを試す

■ D-TLB(グラフ125～139)

同じようにD-TLBも確認してみたい。今度はFar JumpもNear Jumpもないので、確認すべきグラフは半分で済む。まずグラフ125～127がSizeの確認である。結果を見てみると、L1 D-TLBのサイズに関しては、確かにBulldozer→Piledriverで倍増しているようだ。L1 D-TLBについては最初の立ち上がりを見る限り、

・Bulldozer: 32 Entry
・Llano: 48 Entry
・Piledriver: 64 Entry

と拡張されている。ただしL2 TLBのアクセスに関してはむしろPiledriverがLatencyがやや増えているが、これはL1 TLBのEntryを増やした分、Hit/Missの判断に余分に時間が掛かっているというあたりではないかと思う(このあたりは補正データではなく元データで見るのが正しいように思う)。L2 TLB Missの場合のLatencyも、(補正データと元データのどっちで判断するか、によるのだが)おそらく多少高速化されているのではないかと思える。

ついでAssociativityである。16 Entries(グラフ128～130)はA8-3870Kが3cycle、FX-4100とA10-4600Mがほぼ4cycleで一定なのはI-TLBと一緒だが、Bulldozerも32entry確保されていることもあり、32 Entries(グラフ131～133)もやはり一定である。では64 Entry(グラフ134～136)では? というと、64 Entry分のL1 D-TLBを確保したA10-4600Mが一定値なのに対し、FX-4100やA8-3870Kではかなり暴れる傾向が明確である。もっとも128 Entry(グラフ137～139)ではさすがにA10-4600Mも暴れているが、こちらの傾向はほぼFX-4100に等しい。問題は、このタイミングでTurboがどの程度効いているか不明なことだが、もしTurboが効いていないとすれば、A10-4600MのTLBアクセスはA8-3870Kなみに高速化されている事になるだろう。