D-TLB Associativity(グラフ108~119)

D-TLBの最後はAssociativityの比較である。こちらもNear/Farはないので、16/32/64/128 EntryのForward/Backward/Randomでのアクセス比較となる。

16 Entriesの場合の傾向は非常に読みやすい。グラフ108が16 EntryのForwardであるが、まず最初の4 SegmentはL1 D-TLBにHit、次の8 SegmentまではL2 TLBにHit、これを超えると普通にMissすることになる。で、L1 D-TLBに関してはLatencyは同等。L2 TLBでがHaswellの方がLatencyが低いが、これを超えると同等かややHaswellの方がLatencyが多くなっている。この構図はBackward(グラフ109)、Random(グラフ110)でも全く同じだ。16 Entriesくらいだと、それほどグラフが暴れる余地が無いことが判る。

ではもう少し多くなると? ということでグラフ111~113が32 Entriesであるが、こちらも8 Segment以降が多少暴れている程度。3つのグラフとも、強いて言えばHaswellの方が8 Segment以降でややLatencyが大きいかなぁという程度で、それほど大きな差は見られない。

面白いのは、こんな具合に暴れるのは32 Segmentまでのようで、64 Entries(グラフ114~116)を見ると、32 Segment以降は綺麗にフラットになっているのが判る。もっともこの64 Entriesの場合、4 Segmentまでの中に山ができたりしているが、これはHaswell/Ivy Bridgeで全く同じなので、このあたりのインプリメントはかなり近いものと思われる。

また、128 Entires(グラフ117~119)ではL1 D-TLBとL2 TLBの両方を検索するためか、当初からL2 TLBのLatencyでスタートしている。もっともL2だけを見ているわけではなさそうで、その結果としてIvy Bridgeは4 Segment、Haswellは8 SegmentからLatencyが急増している。このあたりはインプリメントに若干変更があるようだ。ただ大枠で見ると、それほど差が無い範囲に収束している。

総じて、L2 TLB周りで若干Latencyが増えているし、インプリメントに多少の違いは見られるが、HaswellはIvy Bridgeとほぼ同じ構成を踏襲していると思われる。

次ページRMMA 3.8 - Stream