デジタル開催となったHPCに関する国際会議「ISC2020」において、スーパーコンピュータ(スパコン)の性能ランキングである「第55回 Top500」が発表された。1位は理化学研究所(理研)のスパコン「富岳」で、LINPACK性能は415.53PFlopsである。そして、消費電力性能を示すランキング「Green500」の1位は日本のPreferred Networks(PFN)の「MN-3」というシステムが、21.108GFlops/Wとぶっちぎりの効率で1位となっている。
何はともあれ、Top500の1位とGreen500の1位を日本が獲得したのは喜ばしいことである。
Top500の1位を獲得した富岳スパコンとは?
富岳は日本のフラグシップスパコンとしては初めてArm8.2-A SVEアーキテクチャを採用している。次の図は富岳に使われているA64FX CPUのチップ写真で、48コアと2個のアシスタントコアが集積されていることが分かる。
富岳は、このA64FXプロセサにHBM2メモリを4個接続した計算ノードを15万8976個使っている。クロックは2.0GHzでブースト時には2.2GHzにクロックアップする。
HPL性能を測定しているときの消費電力は28.334MWとなっている。これは14.665GFlops/Wの電力効率である。富岳のプロトタイプは前回のGreen500では1位を獲得したが、今回は4位に後退することになった。
Armアーキテクチャはスマホなどでは業界標準であり、開発者が多く、開発ツールなどのソフトウェアが充実しているのがメリットである。そして、業界標準のアーキテクチャのプロセサということでHPEのCray部門が「CS500クラスタスパコン」のプロセサとして採用することになっており、出荷台数の増加にも期待がかかる。
富岳のA64FXプロセサは2つの512bitのベクトル演算器を持つプロセサであるが、CPUの命令で直接ベクトル演算器を駆動する構造であるので、アクセラレータには分類されていない。なお、コプロセサ型のアクセラレータであるGPUなどを使うスパコンは、今回のTo500では150システムがリストアップされている。
415.53PFlopsという富岳の性能は、前回まで1位であった米国のSummitスパコンの148.6PFlopsの約2.8倍の性能である。その意味では2位に大差をつける堂々の1位であるが、米国は「Aurora」、「Frontier」、「El Capitan」という3台のエクサスケールスパコンを開発しており、中国も3つのエクサスケールスパコンの開発を進めている。したがって、富岳の天下は長くは続かないと見られている。
富岳は、ラックが432本並ぶ構成となっている。なお、京コンピュータは864本であったので、ラックの数では半分の規模となっている。技術的には864ラックのシステムとしてエクサスケールのスパコンとすることは可能であるが、お金が足りなかったという。
Green500の1位を獲得したPFNのMN-3
Green500で今回の1位となったのは、Preferred Networks(PFN)のMN-3である。PFNのMN-Coreは4チップのマルチチップ構成で、倍精度(DP、あるいはFP64)では32.8TFlopsのピーク演算性能を持っている。
MN-3システムは160個のMN-Coreを使い、ピーク演算性能は3922.33PFlops、LINPACK性能は1621.1PFlopsである。消費電力は76.8kWで、電力効率は21.108GFlops/Wを達成した。NVIDIAのAmpere A100 GPUを使うSeleneの電力効率は20.518GFlops/Wで、MN-3は、これを抑えてGreen500の1位に輝いた。
なお、PFNの資料ではMN-Coreの消費電力は推定500Wとなっている。
2020年6月30日訂正:記事初出時、MN-3システムのMN-Coreの数を2080個としておりましたが、これはMN-CoreとXeonのコアの合計で、MN-Coreチップの数は160個であり、4チップ搭載パッケージにして40個となりますため、当該箇所を修正させていただきました。
富岳はHPL-AIベンチマークなら1ExaFlops超え
マシンラーニングのベンチマークとしてはMLPerfなどがあるが、もっと簡単にハードウェアの性能だけを比較したいという場合に向くベンチマークとしてHPL-AIが提案されている。提案者は、スパコンのベンチマークの大御所のJack Dongarra教授である。
HPL-AIは巨大な連立1次方程式を、Top500のランキングに使われている本物のHPLと同様に倍精度浮動小数点で解く。違いは、64bitの倍精度で計算するのではなく、まず、より精度の低いFP32や、AI計算で用いられるFP16やBF16などで解き、この答えを元の連立1次方程式に代入して誤差を計算する。次に誤差を減らすための補正を行う。これを繰り返して、倍精度で計算したのと同じ答えを得る。このような反復解法で答えを求める点が、HPLと異なる。
このようにすれば低精度での行列式の積和が主体の計算となり、これはニューラルネットの計算と同じような計算となる。そして、ベンチマーク全体としては使い慣れたHPLと同じように実行すれば良いので使い勝手が良い。
2019年6月のISCでHPL-AIの提案が行われ、当時、Top500 1位のSummitで計測したところ、445PFlopsという性能が得られた。本当のHPLでの性能は148PFlopsであるので、おおよそ3倍の性能である。
今回の第55回Top500の説明のところで、主催者のErich Strohmaier氏は、単精度(FP32)やより精度の低いAI計算では富岳のピーク性能は1ExaFlopsを超えると書いている。