Oak Ridge国立研究所(ORNL)のSummitがTop500で首位になった。Summitはどのようなスパコンであり、どのような研究に利用されるのかについて、ISC 18においてOak Ridge Leadership Computing Facility(OLCF)のDirector of ScienceのJack Wells氏が講演を行った。
Oak Ridge国立研究所(ORNL)は、米国のフラグシップスパコンが設置される研究所である。ORNLと並んでLawrence Livermore国立研究所(LLNL)もフラグシップスパコンが設置される研究所であるが、LLNLのスパコンは核兵器の安全管理などの軍事研究に使われるのに対して、ORNLのスパコンは、INCITE(Innovative and Novel Computational Impact on Theory and Experiment)などのプログラムで公募で採択された科学技術研究に使用時間を配分する平和利用のスパコンである。
ORNLとArgonne国立研究所のフラグシップスパコン(Leadership Computing Facility:LCF)の使用時間割り当ては以下のようになっており、50%の計算機時間をINCITEに、20%の時間をASCR Leadership Computing Challengeで研究者に分配している。また、最大20%の計算機時間をExascaleスパコンのソフトウェアスタックを開発するECPに割り当てている。
ORNLは、2004年の第一世代のOLCF-1である15.5TFlopsのCray X1EからLCFシステムを運営してきており、OLCF-3が2012年に設置された27PFlopsのTitanである。そしてTitanの後継が、今回、Top500の首位を獲得したOLCF-4のSummitである。そして、Summitの後継のOLCF-5は2021年ころの設置を予定しているExascaleのFrontierである。
2013年に行われた次の調査結果は興味深いもので、OLCFのユーザにメモリバンド幅、ノードのFlopsなどの各項目について、その重要性を1~5の5段階で評価して貰った結果である。この調査では、メモリバンド幅が4.4で、最も重要度が高いという結果となっている。そして、これまでの調査では1位であったFlops per Nodeが4.0で2位に後退している。インタコネクトのバンド幅が3位、アーカイブストレージの容量が4位という順番で、メモリ容量や平均処理中断間隔などは重要度が低いという結果になっている。重要度が低いと評価された項目は重要でないというよりも、現状の値で、あまり困っていないということであろう。
Summitは新たに運用を開始した世界で最も強力な200PFlopsのシステムである。左側の写真はSummitの筐体、右側の写真は計算ノードであるIBMのAC922サーバのPOWER9 CPUとV100 GPUの水冷コールドプレートのあたりを撮影したものである。
Summitのハードウェア構成
Summitのピーク演算性能は、科学技術計算では200PFlops、16bit精度のFP16でのAIやデータ解析の処理では最大3.3ExaOpsの性能を持っている。
Summitの各ノードは、2個のIBM POWER9 CPUと6個のNVIDIA V100 GPUと608GBの高速メモリ、そして1.6TBのNVMeメモリからなっている。
そして、Summitシステム全体では4608計算ノードを持ち、これらをデュアルレイルのMellanox EDR InfiniBandで接続している。ストレージは250PBのIBMのSpectrum Scaleファイルシステムを持ち、このストレージは2.5TB/sのデータ転送能力を持っている。
次の図はSummitシステムのハードウェアの階層を示すもので、左上がPOWER9 CPUで、その下がV100 GPUである。そして、その右がPOWER9 2ソケットサーバのマザーボードである。上段の右端はAC922サーバで、標準の19インチラックに入る2Uサイズのサーバである。
下段の左端の箱はコンピュートラックでAC922サーバが18台収容できる。そして、全体では4608台のAC922サーバがあるので、計算ノードを収めたコンピュートラックが256本並んでいる。
図の下段の上側のパスはMellanoxのCS7500 EDRスイッチで、これを収容するラックが18本。図の下段の下側のパスはIBMのESS GL4ストレージで、これを収容するラックが40本並んでいる。
それらに加えて、インフラのラックが4本で合計318本のラックが並んでいる。
AC922サーバはシングルスレッドのシリアルコードを高速で実行することができるPOWER9 CPUを搭載している。そして、V100 GPUを搭載し、高性能の科学技術演算と超高速のAI演算が実行できる。
それに加えて、チップ間を高バンド幅で結ぶNVLinkとノード間を高速で結ぶMellanoxのInfiniBandを使っている点も重要である。さらに、ノードごとにかなりの大きさのメモリを持っており、メモリ容量の点で時間の掛かる他のノードへのデータアクセスを最小化できるので、AIなどの大容量のメモリを使う処理を効率よく実行できる。
なお、次の図で白と金に見えるコールドプレートが付いた3個のLSIがV100 GPUであり、その右にある黒と金のコールドプレートが付いているのがPOWER9 CPUである。
(次回は8月1日に掲載します)