横浜にて開催されたIEEE主催のプロセサ関係の国際会議「COOL Chips 20」において、中国の無錫スーパーコンピューティングセンター(National Supercomputing Center in Wuxi)のHaohuan Fu氏が、Top500 1位の「神威 太湖之光(Sunway TaihuLight)スパコン」に関する基調講演を行った。

太湖之光システムについては、Top500の1位として華々しく登場した2016年6月のISC、Gordon Bell賞を獲得した2016年11月のSCでも発表が行われたが、今回のCOOL Chipsでの発表は、多くの新しい情報が含まれた興味深いものであった。

次の中国の地図で右端に近い河口に面しているのが上海で、そこからほど近い大きな湖が太湖で、その太湖のほとりにあるのが無錫市である。

Sunway TaihuLightは、太湖のほとりにある無錫市のスパコンセンターに設置されている (このレポートのすべての図は、COOL Chips 20におけるHaohuan Fu氏の基調講演のスライドのコピーである)

次の図にみられるように、Sunwayシリーズのスーパーコンピュータ(スパコン)は1998年から発表されており、Sunway TaihuLightは突然、出てきたものではない。また、1998年のSunway-1では市販のプロセサを使ったが、2011年のSunway BlueLightでは「SW1600」という16コアの自前のプロセサを使い、今回のSunway TaihuLightでは260コアの「SW26010」という自前のチップを使っている(なお、2001年6月とそれ以前のTop500には中国のマシンは見つからない。2001年10月のTop500には中国の3システムが見られるが、すべてHPのSuperdomeであり、Sunway-1の記述は確認できない)。

Sunwayシリーズスパコンの歴史

TaihuLightシステムの概要

TaihuLightは倍精度浮動小数点演算のピーク性能が125PFlops、Top500のスパコンランキングの指標であるLINPACK演算性能が93PFlopsというシステムであり、2位の天河2号の33.86PFlopsの3倍近い性能をもつ、ぶっちぎりの世界一のスパコンである。

その演算性能は40,960という大量の計算ノードで実現されており、プロセサコアの総数は10,649,600コアと、これも天河2号の3,120,000と比べてぶっちぎりのコア数である。

一方、メモリ容量は1.31PB、総メモリバンド幅は5.59PB/sと京コンピュータと似たレベルであり、演算性能の割にメモリ容量やメモリバンド幅が低い設計になっている。

TaihuLightスパコンの諸元。2位の天河2号と比べて3倍以上の演算性能。一方、メモリ容量やメモリバンド幅は京コンピュータと大差ないレベルである

TaihuLightは、計算ノード、計算ボード、スーパーノード、キャビネット、全システムという5階層で作られている。

TaihuLightは計算ノード、計算ボード、スーパーノード、キャビネット、全システムという5階層で作られている。写真は、2個のSW26010チップ(白色)を搭載する計算ボード

TaihuLightのSW26010プロセサチップは、8×8アレイの計算コアと1つのマネジメントコアが1つのグループを構成し、1チップに4グループを集積している。そして256プロセサチップを接続するカスタムのネットワークを持っている。この256プロセサチップがスーパーノードを構成し、4個のスーパーノードを1つのキャビネットに収容している。

さらに、全システムは40キャビネットで構成されている。スーパーノード間はSunway Netと呼ぶInfiniBand相当の高速のネットワークで接続されている。

TaihuLightの10Mコアは、次のような階層となっている。チップ内の260コアはチップ内ネットワークで接続され、その上に256チップを接続するカスタムのネットワークボードがある。そして、キャビネット間はSunway Netと呼ばれるInfiniBand相当のネットワークで接続する

Top500の1位のTaihuLightと2位から5位のシステムのピーク演算性能、および主要なベンチマークの性能を比較したのが次の表である。

TaihuLightは、LINPACKではピークの74%の性能が得られており、Sequoiaに次いでLINPACK効率が高い。一方、Tianhe-2、Titan、Coriは汎用CPUにアクセラレータを付けたシステムであり、LINPACK効率は50%~65%に留まっている。

TaihuLightの構成はBlueGene/Qに近い構成であり、高いLINPACK効率を実現しているのは興味深い。そして、TaihuLightは、6051.3MFlops/Wと電力効率が高く、Green500でも4位となっている。これは2~5位のシステムと比べて2~3倍高いLIPACK性能/電力となっているためである。

そして、Graph500では、Sequoiaとほぼ同じ性能となっている。なお、この表には含まれていないが、京コンピュータは38621.4GTEPSでTaihuLightの約1.6倍の性能を叩き出している。

メモリバンド幅が制約となるHPCGでは、TaihuLightの性能はTianhe-2より低く、他のシステムと概ね同程度の性能である。TaihuLightのメモリバンド幅は、他のシステムと同程度であるので、このような結果になるのは、ある意味、当然である。

Top500の1位のTaihuLightと2~5位のシステムのピーク演算性能と主要ベンチマークの性能を比較した表