RightMark Memory Analyzer 3.8(グラフ15~71)

cpu.rightmark.org http://cpu.rightmark.org/products/rmma.shtml

ではいよいよRMMAの結果を見てゆきたい。ちなみにこのRMMAのテスト中は、全てTurbo Boostの機能を無効にして測定を行っている。

Decode(グラフ15~20)

まずは主要なDecodeの結果である。全部を示すのも無駄なので、代表例として、

グラフ15:NOP(1) : nop
グラフ16:TEST(2) : test eax, eax
グラフ17:CMP #2(4) : cmp ax, 0x00
グラフ18:CMP #5(6) : cmp eax, 0x00007fff
グラフ19:Prefixed CMP #4(8) : <rep> <addrovr> cmp eax, 0x7fffffff

の5つをまとめてみた。要するに1/2/4/6/8Bytesの命令をそれぞれPickupしたというわけだ。この5つを見比べていただけると判るが、L1に関してはnopのみ4命令/cycle、その他は3命令/cycleできちんとDecodeが行われており、ここでは全く差が出ない。差が出てくるのはL2の帯域で、Sandy Bridgeベースの2製品が5Bytes/cycle程度に留まっているのに、Core i7-3770Kは7Bytes/cycleの帯域になっている。LLCでも、Core i7-2700Kが5Bytes/cycle弱、Core i7-3960Xは4Bytes/cycle強なのに対し、Core i7-3770Kでは6Bytes/cycle程度を維持しており、この差は明確である。つまりDecoderそのもののスループットは変わっていない様に見えるが、ここに繋がるL2/LLCからの取り込みは従来より高速化されたことが見て取れる。

グラフ20はDecodeにPrefixを追加した場合の性能の低下を測定したものである。基本的には大きく変わらないのだが、それでもSandy Bridgeの2製品と比較した場合、Core i7-3770KはPrefixedが付いた場合の帯域が10%ほど上回っている傾向にあるのが見て取れる。これは性能に大きな影響を与えるというレベルの違いではないが、細かく改良を進めていることがここからも見て取れる。