P2Pメッセージ通信の性能。左がTH-Express2、右がTH-Express2+のグラフで、上がレーテンシ、下がバンド幅のグラフ

図が小さくて読み取れないが、TH-Expressのレーテンシは、短いメッセージの場合は2μs程度。32KBのメッセージの場合で15~20μs程度となっている。バンド幅のグラフは右端がメッセージサイズ2MBで、上端が10GB/sである。実効バンド幅は、1チャネルの場合は、長いメッセージの場合で6.3GB/sとなっている。

TH-Express2+のレーテンシは短メッセージの場合1~2μsで、128KBメッセージの場合、26μs程度。バンド幅のグラフは右端が2MB、上端が22GB/sである。1チャネルの実効バンド幅は、長いメッセージの場合は12GB/sで、TH-Exress2の2倍近いバンド幅となっている。

Collective通信機構はディスクリプタで指定したトポロジのツリーを作り、自動的にデータを集めたり、放送したりしてくれる

Collective通信のツリーは、K本の枝を持つツリーを作ることができ、次の図はバリアとBcast(放送)をP2Pのメッセージ通信で行った場合と4本の枝を持つツリーでTH-Express2のハードウェアサポートを使った場合の所要時間を示すグラフである。

ノード内のCollective通信は共有メモリ経由、ノード間はインタコネクト経由で行う。上のグラフはバリア。下のグラフはBcastの処理時間で、時間が長い方はP2P通信での実現、時間が短い方は、ハードサポートを使用した場合

16Kノードのバリアは、P2Pでは110μs程度の時間が掛かるのに対して、ハードサポートを使うと20μsに短縮される。また、16KノードのBcastは、P2Pでは80μs程度を必要とするが、ハードサポートを使うと18μsで完了している。

天河2号のIOはH2IOと呼ばれており、3階層のストレージからなっている。

天河2号のIOはH2IOと呼ばれており、3階層のストレージからなっている

第1階層はノードに接続されたローカルディスクで、合計6400ディスクが接続されている。この図では左側の半分の計算ノードはディスクが無く、右側の半分の計算ノードだけにディスクが付くという絵になっているが、2ノードを搭載するコンピュートボードは8000枚であり、その80%にディスクが付いているという計算になる。

第2階層は、TH-Express2およびQDR InfiniBandで接続される256台のIOノードで、ストレージとしてPCI Express経由で接続するSSDを使っている。この部分は1TB/s以上のバースト転送が可能なバンド幅を持っている。そして、第3階層は64台のストレージサーバで、合計の実効バンド幅は100GB/以上となっている。

京コンピュータでは最終のストレージに対して1TB/sのバンド幅を持たせているが、天河2号はSSDのバッファまでは1TB/sを実現するが、ストレージへのバンド幅は1/10に抑えるという設計になっている。

高エネルギー物理、気象、流体、地震、バイオなどのアプリの開発が行われている

アプリケーションとしては高エネルギー物理、気象、流体、地震、バイオなどのアプリの開発が進められており、1万コア以上で動作しているアプリケーションとして、次のものが示された。

1万コア以上で動作しているアプリケーション

なお、天河2号の1ノードは12コアのXeon E5が2個と、57コアのXeon Phi 3個で、合計195コアである。そして、システム全体では、CPUコア数は38万4000個で、Xeon Phiのコアを加えると312万というカウントとなる。このリストで流体のHOSTAと気象のShallow Waterのコア数はCPUコア数を超えており、Xeon Phiのコアを加えていると考えられる。そして、これらのアプリのコア数を195コアで割ると、HOSTAは3072ノード、Shallow Waterは8664ノードとなる。その他のアプリケーションのコア数は24で割り切れるものが多く、CPUコアだけを使っているアプリケーションと思われる。また、24でも195でも割り切れないものもある。

全体としてみると、Xeon Phiに対応しているアプリは少数派で、CPUだけのアプリも大きいものでもシステム全体の半分程度のノードを使っているという程度で、フルシステムを使うアプリは無い。また、京コンピュータにしろ、Sequoiaにしろ、Top500の1位のコンピュータが出来ると、完成直後にそのマシンをフルに使ったシミュレーションでGordon Bell賞を取るというのがこれまでのパターンであるが、天河2号では、そのような論文は出てこなかった。これらは、Yu教授の「中国のアプリは、まだ、遅れている」という発言を裏付けている。

ピーク性能で50PFlopsを超える世界最大のスパコン天河2号は、ハードウェアからOS、MPI、ファイルシステム、コンパイラなどをコデザインし、スケーラビリティを確保している

しかし、スパコンのハードで言えば、急速に力をつけ、CPUとアクセラレータのチップはIntel製であるが、インタコネクトチップを開発し、さらにシステムのハードウェアアーキテクチャの検討、設計、製造を行い、基本ソフトもLinuxやANLのMPI、Lustreなどをベースにしているようであるが、ハードウェアに対するカストマイズとスケーラビリティを実現するために多くの改良を加えている。これは高度で膨大な開発であり、中国の実力を世界に示す成果である。

アプリ開発についても、今は遅れているとしても、何しろ、人口10倍の国である。近い将来、追いついてくると思われる。