もっとも、「全く入っていない」とも言い切れない結果がグラフ5以降から出てくる。Multi-Core EfficiencyのOverall(グラフ5)で、Latency(折れ線)が次第に下がる傾向にあるのは、LatencyのCycle数が一定であっても動作周波数があがれば結局絶対的なLatencyが減少するためであるが、問題はInter-Core Bandwidth(縦棒)の方でC-SteppingとD-Steppingで明確に二グループに分かれるように見える。

これがもっと明確なのはMulti-Core Efficiency Detail(グラフ6)だ。2×8KB~2×32KBといったところはL1&L2の領域なので、これはコアの動作周波数である程度バラけるが、その先はL2&L3の領域となってくるので、このあたりになると帯域は純粋にCPU内部のCrossbar Switchで決まってくる事になり、ここでの差は全く無い。問題は64×128KBの場合で、8MB分のデータ交換、しかもそれを複数コアでやるから都合16MB分のバッファが必要になり、L3で賄いきれずにMemoryを使うことになる。このケースで、C-Steppingでは5~6GB/secのBandwidthしか無いのに、D-Steppingでは8.3GB/sec前後のBandwidthとなっている。これは明らかに誤差の範囲ではない(誤差とするには余りに大きすぎる)からで、D-SteppingでMemory周りになんらかの手が入ったことを示唆している。