Green500は、HPLの性能/消費電力でランキングを行う。HPLの実行に要した時間は正確に測定できるが、消費電力の測定は、それほど容易ではない。大規模なスパコンの場合、何1000台ものサーバを使うクラスタであることが多く、パソコンのように電源コンセント1個で電力を供給しているわけではない。また、クラスタを作るためのネットワーク機器などの消費電力も測る必要がある。
さらにサーバやネットワーク機器の消費電力は一定ではなく動作状態で変動するが、HPL実行中の総エネルギー量を求める必要がある。
電力測定のレベルを上げるのに取り組むGreen500
2009年に最初のGreen500リストが作られたが、その頃はシステムの消費電力を実測しておらず、メーカーのカタログに書かれている電力値を使っているシステムも多く存在した。
そのような状況で、Green500の主催者は、実測を伴わないカタログ値をレベル0、実測も、レベル1、レベル2、レベル3という3段階の測定法を規定した。そして、EE HPC WG、The Green Grid、TOP500のグループとも協力して電力測定法の検討を行い、2016年1月に新たな規定に改定されて今日に至っている。
基準のサマリを次の表に示す。レベル1では、測定対象はコンピュートノードで、比較的消費電力の少ないネットワーク機器の消費電力は推定値でも良い。レベル2もほぼ同じであるが、ネットワーク以外の機器も関係するものがあれば対象となる。レベル3では、すべての機器の消費電力を実測することが求められる。
レベルの違いで大きく取り扱いが変わるのが、システムの内のどれだけの部分を実測するかという点で、レベル1では少なくとも1/10機器の測定が求められる。そして、測定する部分は15ノードあるいは2kW以上でなければならない。レベル2では1/8以上で10kW以上でなければならない。レベル3では、サブシステムを含めて全システムを測定しなければならないと規定されている。
測定期間は、どのレベルでも同じで、HPL実行の全期間が対象になる。最後の測定法は、レベル1と2では、瞬間的な電力を測定する計測器で、1秒以下の等間隔で電力を読み取り、平均値をとる。一方、レベル3では消費エネルギーを積分する電力計を使うことが要求される。また、機器の精度は、レベル1では5%、レベル2では2%、レベル3では1%が要求される。
リストの有用性を高めるためには、高いレベルの測定が望ましいが、レベル2と3の測定は今回のGreen500リストでも14エントリしかなく、主催者としては、できるだけレベル2/3の測定を増やしたいと考えている状況である。なお、現在は、どのレベルの測定であるかはランキングには影響しないが、レベル1の測定はレベル2/3の測定に比べてGFlops/Wが高くなる傾向があることから、不公平であるという指摘もある。
Piz Daintを持つスイスのCSCSはレベル3の測定を行っているが、その理由は、データセンターの状態に関して正確な情報を持つことが望ましい。そして、レベル3の測定は、レベル1、レベル2の測定に比べて難しいわけではないからであるという。
ロスアラモス国立研究所では、施設の運営、動作状況の監視、システムのAdminは別の組織になっており、レベル3測定を行うためにはこれら3つのチームが協力することが必要で、チーム間の連携が良くなる。
そして、レベル3測定は、ジョブごとの消費電力や室温や冷却能力などにより注意を払うという将来の電力監視に役立つという。
システムレベルの測定を行うことは容易ではないが、その測定は、TOP500やGreen500以外にも役に立つ。例えば、アーキテクチャのトレンドを分析したり、システムモデルを作ったりするのに使える。また、スパコン調達や運用に役立つ。
現在、レベル2やレベル3の結果を登録しているのは次の13団体である。米国の研究所が多いが、日本では東大のセンターとOakforest-PACSを擁するJCAHPC、中国の太湖之光を持つ無錫のスパコンセンター、ヨーロッパではCSCSとマインツ大学がある。そして、企業ではFacebookとNVIDIAがある。
レベル2や3の測定や登録に関して改良すべき点として、CSCSは測定結果の詳細を示すファイルを提出するところがない点を指摘している。ロスアラモス国立研究所からは、レベル2、3の測定法のドキュメントは有用であるが、初めてのユーザには敷居が高い。質問や議論をするためのコンタクト情報が欲しい。要件に適合する測定機器のリストが欲しい。という要望が出された。
(次回は12月13日に掲載します)