RightMark Memory Analyzer 3.8 - I-Cache Latency(グラフ44~51)

グラフ44~51はI-CacheのLatencyである。BandwidthそのものはDecoded μOps Cacheの効果もあってかよく分からないことになっているが、Latencyはどうか? という話である。アクセスはNearとFar、それぞれについてForward/Backward/Random/Pseudo-Randomで実施している。

結果はなかなかに面白い。まずNear Forward(グラフ44)を見ると、8MBを越えた先ではL4のあるBroadwellには見劣りするものの、それ以外はSkylakeが1番Latencyは少ない結果になっている。このうち最初の2KB付近まではDecoded μOps Cacheの効果で、その後はL1 CacheのLatencyと思われるが、これはHaswellとほぼ同等である。

その先のL2については、Haswellが60KB、Broadwellも70KB付近で急激にLatencyが増えるのに対し、Skylakeは120KB付近まで粘り、しかも増えたあとも9~11cycle程度にとどまっているため、明らかにHaswell/Broadwellよりも高速である。

L3の領域ではHaswell/Broadwellがおおむね14cycle、対してSkylakeは10cycle程度である。帯域そのものもさることながら、このLatency削減は実効性能底上げに役立つように思われる。

もっとも全部が全部、そうして効果的というわけでもない。Backward(グラフ45)ではL3のLatencyはHaswellと変わらないからだ。ただRandom/Pseudo-Random(グラフ46と47)では明らかに傾向が異なっており、全体的に低めで推移しているから、Latency削減効果があることは間違いない。

Far Access(グラフ48~51)では多少傾向が変わっているが、Latencyが増え始めるタイミングはやはりSkylakeが一番遅く、また上がり方も緩やかなのは見ての通りで、こちらでもやはりキャッシュに手が入っていることは間違いないと思われる。