ISC 2019でのGreen500 BoF(Birds of a Feather)では、1位のシステムのチームが講演を行うのが常であるが、Shoubu System Bチームは前回も講演を行っているので、今回はTop500 1位でGreen500 3位となったSummitチームが講演を行った。
開催の挨拶に立ったWu Feng教授は2002年に3.2kWの電力で動作するGreen Destinyという240ノードのクラスタを作り、スパコンの低消費電力化の重要性を訴えてきた人である。その活動の一環でGreen500を立ち上げた。
Green500の活動の中で、Green500委員会が最も力を入れたのが、消費電力の測定法の決定である。そして、作られたのが次の表に示す3レベルの電力測定のやり方である。ただし、この仕様も見直し、改定が続いている。
測定法はレベル1、レベル2、レベル3と3種類あり、レベル1は一番簡易な測定で、レベル3が一番精度の高い測定である。
レベル1ではスパコンの中の最低1/10(あるいは2kW分、あるいは15ノードの内の一番大きい部分)の消費電力を測定すれば良い。そして、ネットワーク機器の電力は実測でなくともカタログ値などを使っても良い。これに対して、レベル2では最低1/8、あるいは10kW、あるいは15ノードの内の最大のものを測定対象とする必要がある。また、ネットワーク機器の電力も実測することが求められる。そして、レベル3では、スパコン全体の電力を実測することが求められる。
多数の壁のコンセントから電源を取っている場合は、たくさんの電力計が必要になり、配線も複雑になるので、高いレベルの測定は難しくなるが、最近の大型のスパコンセンターでは、各ロッカーへの電源供給に分割する前の分電盤のところで電力測定ができるようになっているところが増えており、レベル3の測定を実施するのに何の問題もないというセンターも出てきている。
電力測定器の精度や、1秒以下の間隔で読み取った電力値の平均を使うか、HPL実行中の消費エネルギーの積分値を使う必要があるなどレベル1~3で要件が違うが、レベル3で要求されるエネルギー積分値を1%以下の精度で測定する電力計もそれほど高価ではないので、この点でもレベル3測定は普通に実施できるようになりつつある。
現在のリストでは、17件の登録がレベル2で、9件の登録がレベル3測定のデータである。日本国内の登録では、Green500の1位である理化学研究所(理研)のShoubu System Bがレベル3測定、4位の産業技術総合研究所(産総研)のABCIがレベル2測定、28位の東大情報基盤センターのOakbridge-CX、29位の東大と筑波大の共同センターのJCAHPCのOakforest-PACSもレベル2といった状況である。
また、Green500がTop500と一緒になる前は、Green500とTop500の測定は関係がなく、HPLの行列サイズやスパコンのクロック周波数などが、両方の測定で異なっていても構わなかった。このため、Top500の測定では消費電力が大きくなっても、高性能となる測定を行い、Green500の測定では性能が下がっても電力効率の高い条件での測定が使われていた。
これが、Green500とTop500が合同した時に、両者の測定条件を統一し、同じ測定を行なうことに変更された。しかし、そうするとTop500に引っ張られて性能最大で、電力効率を軽視する条件での測定になってしまうことから、Green500にはTop500とは異なる測定値も提出することができることになった。ただし、Green500の測定はTop500の測定に使ったのと同じフルマシンでの測定であり、また、HPLの解く問題サイズもTop500の測定と同じサイズとする必要がある。
例えば、Green500 2位のNVIDIAのDGX SaturnV Voltaは、Top500の測定では1070TFlops、消費電力は97kWであるが、Green500に最適化した測定では932TFlops、消費電力62kWとなっている。その結果、Top500の測定では電力効率は11.03TFlops/Wであるが、Green500最適化条件での測定では15.1TFlops/Wとなっている。
そして、ISC 2019のGreen500 BoFでは、Oak Ridge国立研究所のBuddy Bland氏がSummitでの測定についての講演を行った。
ORNLのSummitはIBMのPower9 CPUと6個のNVIDIAのV100 GPUからなるIBMのAC922ノード4608台をMellanoxのEDR InfiniBandで接続したスパコンである。それぞれのPower9 CPUには512GBのDDR4メモリ、それぞれのV100 GPUには16GBのHBM2メモリがついている。
冷却は水冷で、CPUとGPUには華氏70度(21.11℃)の水で冷却されるコールドヘッドが付いている。DDR4メモリやInfiniBandのNICなどは空冷であるが、筐体のリアドアには、水冷のクーラーが付いており、これらが放出した熱を吸収している。
Summitでの測定結果は、昨年11月のTop500では143.5PFlopsであったが、今回(2019年6月)は148.6PFlopsに向上している。ピーク演算性能は200.79PFlopsで、消費電力は10.096MWである。
結果として、電力効率は14.719GFlops/Wで、Green500で3位となっている。なお、2位のNVIDIAのDGX SaturnV VoltaはGreen500最適化測定であり、1位のShoubu System Bは浸漬液冷のマシンで、Green500シフト色の強いマシンであることを考えると、Summitは商用のマシンとしてはトップの電力効率のマシンであると言える。
測定データの内、興味深い情報であるが、昨年11月の測定では冷却電力は1.449kW-hであったが、今回の実行では2.841kW-hと倍増している。今回の測定は暑く湿度の高い日であったので、ある程度チラーを動かして冷却したと書かれており、このチラーの電力が増加したと思われる。
なお、Top500のExcel形式のデータを見ると、昨年11月に比べて今年6月は、トータルのコア数は少し増えており、HPL性能も3.55%ほど向上している。そして実行時間は26分ほど短くなっている。このため、平均消費電力は増加しているが、エネルギー効率は若干改善されている。