GTC 2018 - マイクロベンチマークでVoltaを解剖する(5) Voltaのメモリ改善手法

レーテンシ、バンド幅ともに改善したシェアードメモリ

次の図の左側のグラフは、シェアードメモリのレーテンシの測定結果を示している。横軸は、同じバンクの異なるアドレスをアクセスするスレッド数で、これが増加するとバンクコンフリクトが増えてレーテンシが増加する。

特にレーテンシの増加が大きいのは、Keplerで競合スレッド数が2から4に増えるところでレーテンシが急増している。MaxwellとPascalは、ほぼ同じ特性で、競合スレッド数が大きい部分ではKeplerから大きくレーテンシが改善している。そして、VoltaはPascalに比べて競合スレッド数が少ない領域でレーテンシが減少している。

右側のグラフはシェアードメモリのバンド幅の測定結果で、K80、M60、P100とV100を比較している。2本の棒グラフは左が実測、右は理論的ピークバンド幅である。PascalはMaxwellに比べてバンド幅が4倍近く増加しており、Voltaではさらにバンド幅が増加して12TB/sという値が測定されている。

シェアードメモリのレーテンシ(左)とバンド幅(右)。レーテンシのグラフの横軸は同一バンクをアクセスしバンクコンフリクトを起こすスレッドの数である

グローバルメモリのアクセスレーテンシ

次の図は、arXivの論文に載っているグローバルメモリをアドレス順にアクセスした場合のレーテンシを示すものである。28サイクルでアクセスされている部分はL1データキャッシュをヒットした場合で、この値はL1データキャッシュのレーテンシである。193サイクルのレーテンシはL1データキャッシュをミスしてL2キャッシュにヒットした場合のレーテンシである。

375サイクルになっているのは、L2キャッシュをミスしてデバイスメモリをアクセスした場合のレーテンシである。そして最初の1029サイクルのレーテンシになっているのは、さらにTLBをミスして、デバイスメモリに格納されたページテーブルをアクセスすることが必要になった場合である。

Voltaではそれ以前の世代のGPUと比べて、キャッシュのアクセスレーテンシは短縮されているのであるが、それでもCPUのキャッシュに比べるとL1、L2キャッシュのレーテンシは1桁遅い。

アドレスを順に変えてメモリをアクセスした場合のレーテンシ。28サイクルのL1データキャッシュがヒットした場合である。L1データキャッシュをミスしてL2キャッシュにヒットした場合は193サイクル、L2キャッシュをミスしてデバイスメモリをアクセスした場合は375サイクルとなっている。1029サイクルを必要とした最初のアクセスは、これにTLBミスが加わっている

デバイスメモリのバンド幅

次の図は、GPUチップ外に置かれたデバイスメモリのバンド幅を比べたものである。P100とV100では3D積層型のHBM2 メモリを使っており、P100の実測では510GB/s、V100の実測では750GB/sという高い実測メモリバンド幅が得られている。

グローバルメモリのバンド幅。濃い青は実測、薄い青は理論ピーク値。HBM2を使うP100とV100は高いバンド幅を持っている

シェアードメモリを使うアトミックアクセスの性能が向上

次の図はアトミック命令の実行レーテンシを示す表で、左側はアトミックアクセスの対象がシェアードメモリの場合、右側はグローバルメモリの場合である。そして、一番上の行は、同じメモリをアクセスするスレッドが1つの場合、次の行は2スレッドが競合する場合、順に、4スレッド、8スレッド、16スレッド、32スレッドが競合する場合のレーテンシを示している。

シェアードメモリを使った場合は、Voltaのレーテンシは過去のGPUのどれよりも短いレーテンシとなっている。一方、グローバルメモリを使う場合は、Voltaのレーテンシは過去のGPU世代と比べて短縮されているという訳でもない。