3位は産総研のAIクラウド

3位は産総研のAIクラウドシステム(AAIC)である。10コアのXeon E5-2630Lv4(クロック1.8GHz)をCPUとして使い、NVIDIAのTesla P100 SXM2 GPUをアクセラレータとして接続している。1位、2位のシステムでは、Xeon 1個に対してP100 2台であるが、このシステムでは、1個のCPUに対して4台のP100を接続したノードとなっている点が異なる。そして、AIクラウド全体では、100台の計算ノードをEDRのInfiniBandで接続している。

このシステムは、961TFlopsのLINPACK性能を75.78kWの消費電力で実現しており、12.681GFlops/Wのエネルギー効率で、Green500 3位となった。

なお、産総研は2017年度には「ABCI(AI Bridging Cloud Infrastructure)」というスパコンを導入する予定で、こちらはAI向けの半精度浮動小数点演算の性能が130PFlopsを超えるという計画である。AIICは半精度演算性能が8.6PFlopsであるので、ABCIは15倍以上の規模となる。

産総研 AI Cloudシステム。P100 GPUを400台使用し、半精度で8.6PFlopsのピーク性能を持つ (出典:産業技術総合研究所Webサイト)

海洋研究開発機構のGyoukou(暁光)

PEZYグループが海洋研究開発機構(JAMSTEC)にスパコンを入れるという噂は、本当であった。Gyoukou(暁光)と名付けられたシステムは、Green500のトップ10システムの中で唯一、NVIDIAのP100 GPUを使わないシステムで、自社で新開発したPEZY-SC2をアクセラレータとして使っている。

しかし、Gyoukouについても、PEZY-SC2についても正式な発表は行われておらず、中身は謎に包まれている。

Green500の登録では、GyoukouはLINPACK性能が1677.13TFlopsで、推定消費電力が164kWで、エネルギー効率が10.226GFlops/Wで、7位というランキングになっている。しかし、今回、ExaScalerはTop500/Green500の登録には消費電力を記載しておらず、Top500のリストでは電力欄は空欄になっている。

ExaScalerの関係者に確認をとったが、このGreen500リストの推定値がどのように出されたのかは不明とのことであった。

そして、Gyoukouは、総コア数が3176000、アクセラレータコア数が3174400となっている。つまり、CPUのコア数は1600ということになる。CPUは16コアのXeon D-1571(クロック1.3GHz)を使っているので、CPU個数は100チップという計算になる。とすると、CPU 1個あたり、アクセラレータが31744コアということになる。仮に、PEZY-SC2の搭載コア数が2048とすると、Xeon D 1個にPEZY-SC2が15.5チップ接続されているという計算になる。しかし、これは半端であり、多分、16チップ接続で、歩留まり向上のために64コアを冗長としてディスエーブルしているのであろう。

また、ピーク演算性能は3207.68TFlopsとなっているので、コアあたりの演算性能は1010.5MFlopsという計算(この計算はXeon Dの演算を無視しているので、PEZY-SC2の演算性能は、もう少し低くなる)になる。各コアが2Flop/Cycleと考えると、クロックは500MHz程度という非常に低い値になってしまう。

正式な発表がないので、真相は闇の中であるが、これらの数字から見ると、Gyoukouは、まだ、開発途上で、TSUBAME3.0よりも完成時期は遅れそうな印象である。

LINPACK性能比率の謎

計算だけを連続して行えばピーク演算性能が出せるが、LINPACKの計算では、連続アドレスでないメモリアクセスがあったり、他の計算ノードとデータのやり取りが必要になったりして、計算ができない時間が出てくる。また、多数の計算ノードに仕事を分担させるが、計算の最後の方では、仕事が無い計算ノードも出てきて、計算ノードの利用効率が下がるなどの性能低下要因があり、LINPACK性能はピーク演算性能より低くなってしまう。

Green500 9位のNVIDIAのP100 GPUを使うNVIDIA DGX-1システムのLINPAC/Peak比は67.54%である。NVIDIAはP100 GPUのマシン命令を使ってチューニングを行っており、これがP100で実現できる最大比率ではないかと思われる。

これに対して、Green500 1位のTSUBAME3.0は、LINPACK性能は1998TFlops、ピーク性能は3207.629TFlopsで、LINPACK性能はピーク性能の62.29%である。これはNVIDIAのシステムより5%程度低い比率になっている。

Green500 2位のkukaiのピーク比率は58.16%で、TSUBAME3.0より、4~5%低い。仮に、kukaiのピーク比率をTSUBAME3.0並みに引き上げられたとすると、消費電力の絶対値は増えるが、LINPACK性能向上の方が大きく、エネルギー効率ではTSUBAME3.0を逆転できる可能性もあると思われる。

3位のAAICは44.72%という低いピーク比率に留まっている。1個のCPUで4台のP100 GPUの面倒を見るという構成なので、CPUの実行時間が見えているのかも知れないが、もう少し、頑張ってほしいところである。

ピーク比率で特筆したいのは、Green500 6位で、Top500の3位のPiz Daintである。ピーク性能は25326.264TFlopsに対して、LINPACK性能は19590TFlopsとなっており、ピーク比率は77.35%とNVIDIAのDGX-1システムを10%も超えている。P100 GPUの本家であるNVIDIAを大幅に上回るチューニングが、どのように行われているのかは、大きな謎である。