「Haswell」完全攻略!! (追加検証) - 内部解析で第4世代Coreの真実にさらに迫る

I-Cache Latency(グラフ23～30)

I-CacheのBandwidthそのものは(ちょっとグラフが前後するが)グラフ17でほぼわかったと思う。このケースではμOp Decode Cacheの効果が限定的で、結果、

	Ivy Bridge	Haswell
L1	32 Bytes/cycle(推定)	32 Bytes/cycle
L2	7 Bytes/cycle	16 Bytes/cycle
L3	6 Bytes/cycle	9 Bytes/cycle

といった帯域になっていると思われる。ちなみにIvy Bridgeは24Bytes/cycleで頭打ちだが、これはSimple Decoder×3だと8×3＝24Bytes/cycleが実際にFetchできる上限だからで、要するにDecoder側がボトルネックになっていると考えられるからだ。

話を戻すと、そんなわけで特にL2/L3の帯域は大幅に増強されたことが判ったが、ではLatencyは? ということで今度はこちら。まずNear Jump系だが、Forward(グラフ23)を見るとL1は同等、L2は同等であるが、なぜかIvy Bridgeが早いタイミング(16KB付近)でCache Missを起こすのが不思議だが、それを抜くとL2もほぼ同程度である。L3に関しては、1cycleほどHaswellがLatencyが多くなっている。大きく違うのはMemory Accessで、こちらでは10cycleほどHaswellが悪い結果に終わっている。Backward(グラフ24)も傾向は同じだが、Ivy BridgeはL2～Memory Accessの範囲で「若干」Latencyが増えている程度なのが、Haswellでは急激にLatencyが増えている事が判る。

ただ、Random-Access(グラフ25)ではそれほど変わらないというか、Haswellの方がむしろLatencyが少ないし、Pseudo-Random(グラフ26)でも同じである。

この傾向はFar Jumpの場合も同じで、Forward(グラフ27)はそれほど大きな差がないのに、Backward(グラフ28)になると急にLatencyが激増する。

単にCacheだけでなくMemory Accessでもこれは当てはまる。Random(グラフ29)あるいはPseudo-Random(グラフ30)ではむしろ改善しているわけで、これはもう「そういう風にCache/Memory Controllerを作り変えた」ものと思われる。

Backward Accessがどの程度一般的かと言われれば「全然普通ではない」ので、この程度の性能悪化は許容範囲なのかもしれないだろう。実際、通常多く使われるForward AccessやRandom Accessでは性能が改善しているわけで、おそらくはこちらへの最適化の結果、Backward Accessでは性能悪化という副作用が出たものと思われる。いずれにせよアクセスパターン次第では恐ろしく性能が悪化する場合がある、というのがHaswellの傾向として挙げられそうだ。

次ページ：RMMA 3.8 - I-Cache Associativity

「Haswell」完全攻略!! (追加検証) - 内部解析で第4世代Coreの真実にさらに迫る

目次

I-Cache Latency(グラフ23～30)

編集部が選ぶ関連記事

「Haswell」完全攻略!! 「Core i7-4770K」検証で見る第4世代Coreの真実

IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - Uncore(GPU/Media Block)編

IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - 拡張命令(AVX2/TSX)編

IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - マイクロアーキテクチャ編

関連キーワード

Google、第6世代Cloud TPU「Trillium」発表 - TPU v5e比でピーク4.7倍の性能強化

Firefoxで「NVIDIA RTX Video」が使えるように - AI機能でWeb動画をアップスケーリング

「Radeon Software Adrenalin 24.5.1」公開 - 『Ghost of Tsushima: Director's Cut』でHYPR-Tune対応

Intel「Thunderbolt Share」発表、ケーブル接続によるPC間の高速データ転送や共有を実現

Palit、真っ白ファン搭載のGeForce RTX 4070 / 4060 Tiグラフィックスカード

AMD Ryzen 7 8700F / Ryzen 5 8400F発売！内蔵グラフィックス非搭載なのに、Ryzen AI搭載モデルも

このカテゴリーについて

「Haswell」完全攻略!! (追加検証) - 内部解析で第4世代Coreの真実にさらに迫る

目次

I-Cache Latency(グラフ23～30)

編集部が選ぶ関連記事

「Haswell」完全攻略!! 「Core i7-4770K」検証で見る第4世代Coreの真実

IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - Uncore(GPU/Media Block)編

IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - 拡張命令(AVX2/TSX)編

IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - マイクロアーキテクチャ編

関連キーワード

Google、第6世代Cloud TPU「Trillium」発表 - TPU v5e比でピーク4.7倍の性能強化

Firefoxで「NVIDIA RTX Video」が使えるように - AI機能でWeb動画をアップスケーリング

「Radeon Software Adrenalin 24.5.1」公開 - 『Ghost of Tsushima: Director's Cut』でHYPR-Tune対応

Intel「Thunderbolt Share」発表、ケーブル接続によるPC間の高速データ転送や共有を実現

Palit、真っ白ファン搭載のGeForce RTX 4070 / 4060 Tiグラフィックスカード

AMD Ryzen 7 8700F / Ryzen 5 8400F発売！ 内蔵グラフィックス非搭載なのに、Ryzen AI搭載モデルも

このカテゴリーについて

AMD Ryzen 7 8700F / Ryzen 5 8400F発売！内蔵グラフィックス非搭載なのに、Ryzen AI搭載モデルも