Aurora VEの諸元
次の図にAurora VEの諸元とハイレベルのブロックダイヤを示す。
ベクタ長は256W(16Kbit)である。VEチップには8コアが集積され1.6GHzのクロックで動作する。コアの演算性能はDPの場合307GFlops、SPの場合は614GFlopsである。したがって、VEチップ全体ではDPで2.4TFlopsの演算性能を持っている。前世代のSX-ACEのプロセサチップのベクトル演算性能は256GFlopsであったので、今回は、おおよそ10倍に性能アップしている。
そして、8コアに共通の16MBのキャッシュを持っている。16MBのキャッシュとコアの間のバンド幅は0.4TB/s、VEチップと6個のHBM2メモリの間のバンド幅は1.2TB/sである。
Auroraは、32本のベクトル演算パイプラインを持ち、256語のベクトルを32語並列×8サイクルで処理する。この32本の演算パイプラインを3組持っているので、ピーク演算性能は32Flop×2(積和)×3組×1.6GHzで307.2GFlopsとなる。
Auroraチップの8個のプロセサコアとL2キャッシュは2次元のメッシュインタコネクトで接続されている。
次の図はAurora VEの接近写真で、細長いVEチップの両側に6個のHBM2メモリが見える。NVIDIAのV100 GPUは4個のHBM2であり、6個のHBM2を搭載するのは世界初である。両脇に3個ずつのHBM2を搭載するためか、Auroraはかなり縦長のチップになっている。
Aurora VEはTSMCの16FFプロセスを使い、チップサイズは33mm×14.96mmとなっている。ベクタプロセサと6個のHBM2メモリを搭載するシリコンインタポーザは、TSMCとBroadcom、NECが協力して作ったと書かれている。
VEプロセサは10A、10B、10Cの3品種があり、1.6GHzクロックで動作するのは10Aだけであり、他の2品種は1.4GHzクロックである。また、10Aと10Bのメモリは1.2TB/sのバンド幅で容量は48GBであるが、10Cは半分の24GBとなっている。おそらく、HBM2の数を半減しているのであろう。ただし、メモリバンド幅は半減ではなく、0.75GB/sとなっている。
次の図はAuroraカードの写真である。標準のダブルハイトのPCIeカードとなっており、インタフェースはPCIe Gen3のx16である。また、消費電力は<300Wとなっている。
パッケージには空冷と水冷があり、空冷にはファン付きのアクティブ空冷とサーバ筐体内部の風の流れで冷やすパッシブ空冷の2種類がある。アクティブ空冷パッケージは、搭載できるCPUは10Cだけとなっている。一方、パッシブ空冷の場合は10Bか10Cかを選ぶことができる。アクティブ空冷の製品は使えるVEは10Cだけであり、クロックが低く、かつHBMの個数が少ないので、消費電力は低めになっていると考えられる。
水冷の製品は、約40℃の水をコールドプレートに供給して冷却している。水冷製品は10Aか10Bかを選ぶことができる。逆に言うと、最高性能で消費電力も大きいと考えられる10Aを使えるのは水冷製品だけである。
(次回は12月8日に掲載します)