完全版!! 「Phenom II」極限検証 - 内部アーキテクチャ解析編

では、CPUのパイプラインとL1キャッシュには手をつけなかったが、L2キャッシュ以降には手をつけたのか? というとそうとも言い切れない。グラフ29～31はRMMAのD-Cache/RAM Bandwidthの結果であるが、L1の範囲で明らかにPhenom IIのスループットがあがっていることが見て取れる。

L1/L2の部分をアップにしたのがグラフ32～34だが、Phenom X4 9950はピークでも30.7Bytes/cycle程度、対してPhenom IIはピークで31.7Bytes/cycle程度となっており、わずかながら性能改善が行われていることが見て取れる。これはWriteも同じで、Phenom X4 9950がピークで15.6Bytes/cycleなのに対し、Phenom IIでは15.9Bytes/cycleを超えている。どちらもReadで32Bytes/cycle、Writeで16Bytes/cycleを狙っている構成であろうが、Phenomは何かどこかが引っかかってややピーク性能が目標値を下回っており、これをPhenom IIで改善したというところか。程度通常デコーダがここまでの帯域を必要としていないから、これが通常のALU命令の処理に寄与する部分はそう多くないだろうが、SSE系(特にSSE3以降)命令では多少性能アップに寄与する筈だ。

ところで、このグラフ29～31を、Core 2/Core i7といったIntelのCPUと比較すると、その対比が非常に面白い。やはりRMMAにおけるD-Cache/RAM Bandwidthのテストはこちらのグラフ41 / 42 / 43に示した通りだが、例えばReadのピーク値を比較した場合の結果が表2だ。

Bytes/cycle	Phenom	Core 2	Core i7
■表2
L1	31.7	16.0	17.2
L2	8.0	8.0	11.5
L3	3.3	-	9.1
Memory	2.3	2.3	3.8

数字はいずれもBytes/cycleであるが、こう見てみるとPhenomやPhenom IIは、Core 2よりは確実に良くなっている。L2やMemory Accessは同等だが、L1は倍だしL3もある。ところがCore i7と比較した場合、L2/L3/Memoryの帯域の低さが途端に露呈することになってしまう。Phenomが根本的にCore i7に及ばない理由はこのあたりにあるのでは無いか、と筆者は考えている。