RightMark Multi-Thread Memory Test 1.1(グラフ33~36)

cpu.rightmark.org
http://cpu.rightmark.org/

基本的にBroadwellはHaswellとほとんど同じで、GodavariもKaveriと同じなので、RMMAはまたいずれの機会にテストしたいと思うが、こちらだけはやってみた。まず、Readがグラフ33と34であるが、1Threadの際のRead帯域はHaswell/Broadwell共に同じ程度である。

Threadあたり20MBの設定でアクセスを行っているので、L2/L3ともに飽和し、HaswellはMemory Accessになっているが、BroadwellはL4 Hitの範囲である。にも関わらず1Threadの場合は帯域がほぼ同じ、というのはちょっと面白い。このあたりは、1ThreadあたりのReadの実効帯域がMemory Controllerの実効帯域と同程度に設定してあるのかもしれない。

さて、そんなわけで1Threadでは同等だが、その先は大きく差が出てくるのはもろにL4の効果と考えて良い。Haswellの世代でIris Proを搭載した製品に利用されたL4のeDRAMはRead/Write共に51.2GB/secの帯域を持つことが2014年のISSCCで発表されている。実際にグラフ33と34共にピークで51GB/sec強の帯域が確保されていることがわかる。メモリアクセスの帯域はHaswellのスコアを見れば分かるとおり27~28GB/secがピークなので、ほぼ帯域倍増というわけだ。

これはWriteについても当てはまる(グラフ35と36)。ピークは4Threadの80MBの書き込みあたりで、5Thread以上だとむしろ帯域が下がる傾向にあるが、そのピークではHaswellが13GB/sec前後なのに、Broadwellは34GB/secと3倍近い帯域の差がある。これだけ帯域が違えば、特にMulti-Threadedなアプリケーションでは性能差があっても不思議ではない。

ちなみにGodavariはDDR3-2133を利用しているにも関わらず性能が芳しくないのは、Steamrollerコアそのものが1コアでRead:9GB/sec、Write:5.5GB/sec程度のアクセス能力しか持っておらず、しかも2Core/1Moduleの構成なのでどうしてもボトルネックになりやすいという特徴がある。ただ、4Thread構成ではもう少し性能が上がっても良さそうな所ではある。

もっともKaveri/Godavariのメモリ構成では、GPUに対する帯域を結構大きめに取っているので、メモリの高速化の恩恵は専らGPU側の性能改善で、CPU側はそれほどでもないということなのだろうが。