ISC 2016最終日の基調講演を行うThomas Sterling教授

ISC 2016では、インディアナ大学のThomas Sterling(トーマス・スターリング)教授が、最終日の閉会の辞の前に締めの基調講演を行うのが恒例となっている。スターリング教授は、それまで専用設計のベクトルマシンで作るものと思われてきたスーパーコンピュータ(スパコン)を、Beowulfと名付けたPCクラスタで作ったことで有名である。これが始まりとなり、今ではマルチノードのクラスタ型のスパコンが全盛となっている。

「HPC Achievement and Impact 2016」と題するこの基調講演は、スターリング教授の個人的な観点からのまとめで、意図的ではないが、当然、偏りのある見方であると断って講演を始めた。

毎年恒例のスターリング教授の個人的見解をまとめた基調講演である (このレポートの図は、原則、基調講演の発表スライドを撮影したものである)

この10年あまりのHPC分野では、次に示すようなテーマがあげられる。そして、2016年のテーマはTaihuLightの出現による100PFlops時代の到来である。

2016年のテーマは100PFlops時代の到来である

2016年のハイライトは、「停滞の終わり」、「中国がスーパーコンピューティングを席巻」、「100PFlopsマシンの登場」があげられる。そして、ExaScaleへの計画が固まってきたこと、米国大統領のNSCI指令、アフリカにPetaFlopsマシンが登場したことなどがあげられる。さらに、通信ファブリックが更新される動きや重力波が(スーパーコンピューティングの貢献で)発見されたこと、ISCの出席者数が過去最高になったこともハイライトの1つである。

スパコン界での中国の台頭を最大のハイライトにあげている

システムアーキテクチャの進歩

そして、Intelのスライドを使ってOmni-PathとKnights Landingについて述べた。Omni-Pathはメッセージレート(Message Rate)が高く、レーテンシ(Latency)が短いことが重要な特徴である。これにより、大量の通信を必要とする処理の性能を上げることができる。

Omni-Pathはメッセージレートが高く,レーテンシが短いことが重要

Knights LandingはXeonと命令互換で、OSを走らせられるメニーコアのプロセサで、3TFlops以上の演算能力をもっている。そして、3D積層技術を用いる超広帯域のMCDRAMの採用、Omni-Pathインタフェースを同一パッケージに内蔵した点が新しい。

Knights LandingがMPI通信を実行することができるようになり、GPUアクセラレータで必要であったPCI Express経由のCPUメモリとGPUメモリの間のデータ転送が不要になった。これにより、Knights LandingはPCI Expressが無くても動作できるプロセサとなり、プログラミングが容易になり、実行効率もあがることになった。

OSがブートでき、MPIが動くようになり、PCI Express経由のアクセラレータへのデータ移動が不要になった。これで、プログラミングが容易になり、性能も上がる

アルゴンヌ国立研究所が2018年に設置するAuroraスパコンは、Knights Landingの次の世代となる「Knights Hillプロセサ」を採用する計画である。180PFlopsのピーク演算性能と7PBのメモリ持ち、13MWのピーク消費電力を予定している。調達コストは2億ドルである。

アルゴンヌ国立研究所のAurolaは、IntelのKnights Hillプロセサを使い180PFlops。7PBのメモリを持ち、消費電力は13MW。CrayのShastaアーキテクチャのスパコンである。納入は2018年、2019年Q2からの本格稼働の予定

1PFlopsのスパコンは珍しくないが、アフリカ大陸にそれが設置されたことは、今年のハイライトである。

Lengau(チーター)と名付けられた南アフリカのCHPCに設置された1PFlopsスパコン (この図はYoutubeからのコピーである)

そして、Data Vortexは、データ移動にフォーカスした新しいタイプのネットワーク機器である。64bitという短いペイロードで、短レーテンシで、競合の無い通信を実現している。

短レーテンシを実現したData Vortexのネットワーク機器 (この図はYoutubeからのコピーである)

次の図はData Vortexのネットワークと、InfiniBandネットワークのメッセージ長と通信バンド幅をプロットしたもので、InfiniBandのPoint to PointやAll to All通信はメッセージが短い場合はバンド幅も小さい。これに対してData Vortexのネットワークはメッセージ長にほぼ無関係に、4.4GB/s程度のバンド幅が得られている。

Data Vortexのネットワークは、InfiniBandと比べて、短いメッセージを超高速で伝送することができる

結果として、左のHPC ChallengeのGFFTベンチマークの性能は、Data VortexのDV202やDV205ではコアあたり4GFlops程度の性能が得られている。これに対して、多くのスパコンでは、その1/10かそれ以下のコアあたりの性能しか得られていない。

右のグラフはランダムアクセスの性能をプロットしたもので、Data Vortexでは0.04GUPSに近い性能が得られているが、これも多くのスパコンでは1/10の性能しか得られていない。

Data Vortexのネットワークを使えば、FFTやランダムアクセスのような短メッセージで頻繁な通信を必要とする計算の効率を大幅に引き上げることができる。

Data Vortexのネットワークは、FFTやランダムアクセスの性能を大幅に改善することができる