では、CPUのパイプラインとL1キャッシュには手をつけなかったが、L2キャッシュ以降には手をつけたのか? というとそうとも言い切れない。グラフ29~31はRMMAのD-Cache/RAM Bandwidthの結果であるが、L1の範囲で明らかにPhenom IIのスループットがあがっていることが見て取れる。
L1/L2の部分をアップにしたのがグラフ32~34だが、Phenom X4 9950はピークでも30.7Bytes/cycle程度、対してPhenom IIはピークで31.7Bytes/cycle程度となっており、わずかながら性能改善が行われていることが見て取れる。これはWriteも同じで、Phenom X4 9950がピークで15.6Bytes/cycleなのに対し、Phenom IIでは15.9Bytes/cycleを超えている。どちらもReadで32Bytes/cycle、Writeで16Bytes/cycleを狙っている構成であろうが、Phenomは何かどこかが引っかかってややピーク性能が目標値を下回っており、これをPhenom IIで改善したというところか。程度通常デコーダがここまでの帯域を必要としていないから、これが通常のALU命令の処理に寄与する部分はそう多くないだろうが、SSE系(特にSSE3以降)命令では多少性能アップに寄与する筈だ。
ところで、このグラフ29~31を、Core 2/Core i7といったIntelのCPUと比較すると、その対比が非常に面白い。やはりRMMAにおけるD-Cache/RAM Bandwidthのテストはこちらのグラフ41 / 42 / 43に示した通りだが、例えばReadのピーク値を比較した場合の結果が表2だ。
■表2 | |||
Bytes/cycle | Phenom | Core 2 | Core i7 |
---|---|---|---|
L1 | 31.7 | 16.0 | 17.2 |
L2 | 8.0 | 8.0 | 11.5 |
L3 | 3.3 | - | 9.1 |
Memory | 2.3 | 2.3 | 3.8 |
数字はいずれもBytes/cycleであるが、こう見てみるとPhenomやPhenom IIは、Core 2よりは確実に良くなっている。L2やMemory Accessは同等だが、L1は倍だしL3もある。ところがCore i7と比較した場合、L2/L3/Memoryの帯域の低さが途端に露呈することになってしまう。Phenomが根本的にCore i7に及ばない理由はこのあたりにあるのでは無いか、と筆者は考えている。