富士通が開発したメニーコアCPU「A64FX」

富士通は、Armv8-AにScalable Vector Extension(SVE)を付けたスパコン用のコアを開発した。富岳はこのコアを52個搭載するメニ―コアアーキテクチャのCPU LSI「A64FX」を使うスパコンである。このようなメニ―コアアーキテクチャは、中国の神威・太湖之光スパコンでも使われている。なお、富岳のCPUの52コアの内の48個が計算処理用であり、残りのコアはOSなどの計算処理以外の用途に使用する。48コアの浮動小数点演算性能の合計は2.7TFlopsを超える。

メモリは高い性能を持つHBM2メモリを4個搭載し、1TB/sのバンド幅を実現している。そして、dgemmの実行時の電力効率は15GFlops/Wと低消費電力になっている。なお、現在、Top500の1位であるSummitスパコンもGreen500の登録値では14.7GFlops/Wであり、富岳はSummitと同程度の電力効率である。SummitはNVIDIAのV100 GPUを使っているが、富岳はGPUは使わないで同程度の効率を出しているのは頑張っているといえる。

ネットワークは、京コンピュータで開発した6次元のメッシュ/トーラスのインタコネクトを改良したものを使っている。

そして、富士通のA64FXはすでに完成しており、2チップを搭載したプロトタイプボードも作られている。

理研は、富岳のアーリーアクセスは2020年の第2四半期頃に開始すると発表しており、ほぼ1年後にはアーリーアクセスで部分的かもしれないが、実機が使えるようになる。

  • 富岳

    富岳は52コアのメニ―コアCPUを使う。ネットワークは6次元メッシュ/トーラストポロジのTofu-Dインタコネクトを使用する。電力効率は15GFlops/W。2020年Q2にはアーリーアクセスを開始する予定

富岳開発のカギを握る3つの指標

富岳の開発にあたって3つのカギとなる指標が定められた。1つ目は電力効率が高いことである。この点については、プロトタイプのCPUで15GFlops/Wの電力効率で動作できることを確認しており、30~40MWの消費電力で最大性能を発揮できるめどがたった。

2つ目は、ターゲットアプリケーションの実行性能が高いことである。具体的には、いくつかのアプリケーションで、京コンピュータの100倍を超える性能を出すことである。これについては、分子動力学のGENESISで125倍の性能、気象シミュレーションのNICAN+LETKFで120倍の性能を実現している。

3つ目の指標は、広い範囲のユーザにとって使いやすいシステムであることである。富岳のメニ―コアは高バンド幅のHBM2メモリを共有するシェアードメモリシステムであり、使いやすい。ノード間の通信もOpenMPやMPIを使うプログラムが容易に移植できるようになっている。また、GPUなどのアクセラレータのように特別なプログラミングは必要ない。システム仕様はアプリケーション開発チームとのコデザインで整合がとられている。

  • 富岳

    富岳の開発にあたり、電力効率が非常に高いこと。ターゲットアプリケーションの実行性能でいくつかは京コンピュータの100倍を超えること。広い範囲のユーザにとって使いやすいシステムであることというカギとなる指標を設定した

富岳と京コンピュータを比較してみると、チップ当たりのコア数は、京では8であったが、富岳では48と6倍になっている。コアの演算性能は京の16GFlopsに対して富岳では56GFlops以上となっている。クロック周波数を若干上げられる可能性もあるので、以上と書かれているが、それほど大きく変わることはないと思われる。

そして、HBM2の採用でメモリバンド幅は、京の64GB/sから1024GB/sへと16倍ほど向上している。しかし、演算能力の向上の方が大きく、B/F比は京が0.5に対して、富岳では0.4と若干低下している。

京コンピュータは82,944ノードであったが、富岳の計算ノードの数は150K以上と発表された。京コンピュータでは864本のラックが必要であったが、富岳では密度があがっているので、400本程度のラックに収容できる。

そして、ピーク演算性能は405PFlops以上とされている。前述したようにメモリネックで使えない演算能力を上げても無駄であるが、405PFlopsはプレエクサと呼ばれるSummitのピーク演算能力の約2倍であり、エクサスケールとは言いにくい。京コンピュータと同じ数のラックを並べればエクサスケールに近づくが、それは予算的に難しいし、電力供給も問題である。

  • 富岳

    京コンピュータと富岳の諸元の比較。富岳のピーク演算性能は405PFlops以上と発表された

そして、9種のアプリケーションの性能についてだが、創薬のGENESISは京の125倍の性能、気象計算のNICAM+LETKFは120倍に性能が向上しているが、その他の7つのアプリケーションでは8倍~45倍の性能で、9種全体の性能向上の幾何平均は37倍である。

  • 富岳

    9種のターゲットアプリケーションの概要と、京コンピュータからの性能向上

富岳スパコンのハイライトであるが、富士通と理研が協力してArmv8.2(SVE)アーキテクチャの52コアプロセサA64FXが開発。このCPUは1TB/sという高いメモリバンド幅を持ち、560GbpsのTofu-DインタコネクトのNICを内蔵している。そして、約3TFlopsのSVE演算やFP16やINT8などのAI用の演算もサポートしている。

また、このCPUはLinuxやWindowsのWordなども動く汎用のプロセサである。そして、x86 CPUと比較すると、流体のベンチマークの実行時の電力効率は10倍である。

そして富岳は150K以上のノードを持っている。これはTop500 2位のSierraのノード数を超える。メモリバンド幅は150PB/sを超える。ノード間を接続する6次元メッシュ/トーラスのTofu-Dインタコネクトは50Pbpsのインジェクションバンド幅がある。

そして、15PBのNVMeのL1ストレージを持ち、約800エンドポイントの100GbpsのI/OネットワークでLustreストレージにつながっている。したがって、2020年頃のスパコンとしては最大で最高速である。浮動小数点演算性能はExaflopsではないが、アプリケーション性能という点では最初のExascaleマシンであるという。

  • 富岳

    富士通と理研でArmv8.2の52コアCPUを開発した。このCPUはHPCに最適化されている。浮動小数点演算性能ではExaFlopsではないが、アプリケーションの実行性能ではエクサスケールのマシンである