前編(SC17 - Green500の1~3位を独占したPEZY(前編))はコチラ

細部にまでこだわった消費電力の削減

液浸槽は、絶縁性の液体であるフロリナートで満たされる。液体であるフロリナートは、空気と比べると密度が高いので、同じ流量で1500倍程度の熱を運ぶことができる。したがって、高発熱のチップを高い密度で詰め込んでも冷却することができる。

そして、フロリナートはポンプで循環され、温まったフロリナートは冷凍機などで冷却される。

低沸点の絶縁性液体を使う沸騰冷却を行えば、気化熱を利用して冷却できるので効率が高いが、高価な絶縁性液体が気化して逃げてしまい易いという問題があり、液浸槽を密閉する必要があるので保守性が悪くなる。このため、PEZYは高沸点の絶縁性液体を使って蒸発を抑え、液浸槽には簡単な蓋をつけているが、容易に開閉できるようにしている。この方式では気化熱は利用できないが、十分、高密度の発熱を冷却できるという。

電力の低減の観点では、元のShoubuシステムで使っていたPEZY-SCnpと比較すると、16nmプロセスを使うPEZY-SC2チップを使うことで、演算チップの電力は56%に低減することができた。

ボードへの給電を12V DCから48V DCに変更した。48V化で電源電流は1/4になり、電源線の抵抗によるI2Rロスは1/16に減少する。

また、チップパッケージにVICOR社の降圧変換器を搭載して48V DCから0.7V程度の電圧を作ってチップに給電する方式としたことにより、PEZY-SC2チップと電源を近づけることができ、電源線の抵抗を減らせた。これらで、それぞれ5%、5%、10%の消費電力削減ができた。

これらに加えて、電源を近づけることにより、電源電圧のドループ(負荷の増加に伴う電源電圧の低下)を減らせたことで5%の消費電力削減が得られた。

次の図に示すように、NVIDIAのVolta V100では合計16個の安定化電源がチップの両側に並んでいるが、それに比べると、PEZYの設計は非常にコンパクトであり、数100Aの電流が流れるチップと安定化電源の間の配線の距離が短く、負荷電流の変化に伴う電源電圧の変動も小さく抑えられていると考えられる。

なお、VICOR社の安定化電源は2個のModular Current Multiplier(MCM)とModular Current Multiplier Driver(MCD)の対で構成されており、MCMはPEZY-SC2パッケージに搭載され、MCDはプリント基板のPEZY-SC2パッケージに近いところに実装されている。MCDはMCMより少し大きめで、Volta GPUの16個のDC-DCコンバータとサイズの比較を行う場合はMCDを含めて考える必要がある。

  • PEZY-SC2(左)とNVIDIA V100(右)。サイズの比を保った比較

    PEZY-SC2(左)とNVIDIA V100(右)。サイズの比を保った比較。PEZY-SC2の金色の降圧変換器は小さく、PEZY-SC2チップまでの距離も短い。V100は上下に8個ずつ存在する安定化電源が大きな面積を占め、Voltaチップまでの距離が長い (出典:このレポートのすべての図は、2017年11月の齊藤社長のGreen500 1位受賞講演での発表スライドのコピーである)

また、ホストCPUをXeon E5-2618v3からXeon D 1571に変更し、個数も削減したことで、13.1%の電力削減ができた。しかし、PCI Expressスイッチが12個必要になったことで、消費電力は15%増加してしまった。

  • ShoubuとShoubu System Bの消費電力削減比較

    28nmプロセスのPEZY-SCnpチップを使う元のShoubuと比較して、16nmプロセスのPEZY-SC2チップを使うShoubu System Bでの消費電力削減。演算チップ部は56%の電力に削減。演算チップ以外の部分は77.1%に削減し、HPLプログラムのコードの最適化で10%を削減。演算性能の向上を合わせるとGFlops/Wは2.55倍に向上した

これらのハードウェアの変更に加えて、HPLのコードを見直し、従来はXeon E5側で実行していたHPLのupdate処理をPEZY-SCにオフロードするコードに変更した。これにより、10%の電力が削減できた。

コア数の倍増で性能が上がり、HPLの改善で演算時間が短縮される効果と、これらの電力削減を合わせると、Green500のスコアは、元のShoubuの6.674GFlops/WからShoubu System Bでは17.009GFlopsと2.55倍に向上している。

次の図は、HPLを実行しているときのShoubu System Bの消費電力の測定結果を示している。終盤での電力の落ち込みが急峻であり、長い期間、多くのPEZY-SC2コアが高い稼働率を保っている実行になっていると考えられる。これは79万3600コアのシステムとしては立派なものである。

  • Shoubu System BのHPL実行時の消費電力の推移

    Shoubu System BのHPL実行時の消費電力の推移

2018年にVolta搭載システムとSkylake-F採用システムが登場

ExaScalerは、2018年にはZettaScaler-2.4と2.6を開発する予定である。ZettaScaler-2.4は3個のVolta V100を搭載するボードを使う。これにより、20GFlops/Wを達成する予定である。ZettaScaler-2.4でもHPLの処理をVolta側にオフロードできれば25GFlops/Wも可能ではないかと考えているという。このVolta搭載ボードはすでにサンプルができており、SC17で展示されていた。

  • ZettaScaler-2.4の3個のVolta V100を搭載した計算ノードボード

    ZettaScaler-2.4の3個のVolta V100を搭載した計算ノードボード

一方、ZettaScaler-2.6ではCPUをXeon DからXeon Skylake-Fに交換する。Skylake-FはPCI Expressを48レーンとそれに加えてOmniPath用の16レーンを内蔵しているので、6個のPEZY-SC2をPCI Expressスイッチ無しでCPUに接続することができるようになる。PCI Expressスイッチの削減により、ブリックの消費電力の15%程度を削減することができる。また、PCI Expressスイッチに起因するバンド幅の制約も解消することが期待できるという。

また、すでに、7nmプロセスを使うPEZY-SC3チップとそれを使うZettaScaler-3.0スパコンの開発が始まっている。PEZY-SC3のエンジニアリングサンプルは年内に完成する予定になっているという。そして、ZettaScaler-3.0では30GFlops/Wを目指すという。

  • 2018年にはZettaScaler-2.4と2.6を開発する計画である

    2018年にはZettaScaler-2.4と2.6を開発する計画である