SC18にて開催されたStudent Cluster Competition(SCC)は、大学生のチームが高性能コンピューティングの知識や技術を競うという競技である。Student Cluster Competitionに出場するためには、チームとスポンサーが必要である。チームやスポンサー、競技そのほかの必要な事項について、それぞれの概要を下記に記す。
チーム
チームは、6人の大学の学部学生、あるいは高校生で構成される。大学院生はチームメンバーにはなれない。
そして、チームには一人のアドバイザが付く。アドバイザはコンピュータ関係の学科の先生や、スパコンセンターの先生がなることが多い。アドバイザは競技中には飲食の差し入れなどはできるが、技術的な助言などは行ってはならないことになっている。
しかし、競技の前の数か月の準備期間は、いろいろな専門家の助言を受けるのは自由であり、実質上、多くのアドバイザがいることになる。
チームは、1つの大学の学生だけで構成されるケースが多いが、複数の大学からメンバーが出ているというケースもある。
スポンサー
それから、チームにはスポンサーが必要である。スポンサーはHPCクラスタの機器を貸与し、SC会場との往復の旅費や滞在費などを負担する。通常は、チームを構成する大学との繋がりがあるIT企業がスポンサーになる。スポンサーは1社の場合もあるが、複数の会社がスポンサーとなって費用を分担する場合もある。
競技
競技は、消費電力3kW以下の小規模なHPCクラスタを作り、それを使って課題のアプリケーションを実行して、その性能を競うが、それだけでなくチームメンバーに審査員がインタビューして、HPCクラスタやアプリケーションに対する知識、理解度をチェックして採点もする。それらの総合点で優勝が決まる。また、Top500のランキングに使われるHPLは、1つの課題アプリケーションであるだけでなく、これだけは最高性能を達成したチームを表彰する。
実行するアプリケーション
実行するソフトウェアは、Top500の「HPL」と「HPCG」、そして今回は、「Parallel Deep Learning with Horovod、OpenMC」と「Reproducibility Challenge」、それに1種のミステリーアプリケーションの合計6つのアプリケーションプログラムである。
Parallel Deep Learning with HorovodはTensorFlowで並列学習を行うもので、Horovodは学習を加速する通信レイヤーである。OpenMCはオープンソースのモンテカルロシミュレーションである。
Reproducibility Challengeは前回のSC17で発表された「Extreme scale multi-physics simulations of the tsunamigenic 2004 sumatra megathrust earthquake」という論文の結果を再計算して、論文と答えの一致を確認するという課題である。
ミステリーアプリケーションは競技を開始する時点まで秘密であるが、それ以外のアプリケーションは数か月前からアプリケーション名は公表される。しかし、公表されるのはアプリ名だけで、実行すべきデータは競技の開始されるときにダウンロードができるようになる。したがって、事前にまったく同じ入力データで実行してみることはできない。
停電
留意すべきこととして、SCCでは競技期間中に少なくとも1回、停電が起こされる。UPSを持たないクラスタの場合は、システムは予期しない停電でストップしてしまう。
定期的に中間結果をチェックポイントに書き出しているシステムは、リブートして、直前のチェックポイントを読み出してそこから実行を再開すれば比較的短時間でリカバリができるが、チェックポイントを取っていないシステムの場合は、数時間の実行時間をロスしてしまうことが起こる。
しかし、UPSはある程度の電力をロスするので、計算に使えるエネルギーが減ってしまう。チェックポイントもその書き出しに時間が掛かるし、エネルギー的にもオーバヘッドが発生して、計算のスループットが低下するというロスがあり、採用するかどうかは損得のバランスによる。
その他の条件
構築する3kW未満の消費電力のHPCクラスタは、スポンサーから入手できれば、どのようなシステムでも良い。
なお、消費電力をチェックするコンセントが使われ、3kWを超えると、その継続時間や電力量がレポートされ、それに応じて減点されるようになっているが、突然、電源がシャットダウンされてしまう訳ではない。
そして、競技はSC初日の月曜日の夕方から開始され、48時間ぶっ通しで行われ、水曜日の夕方に終了する。
SC18におけるSCCの出場チーム
SC18でのStudent Cluster Competitionに出場したのは、以下の15チームである。
- Illinois institute of Technology
- Friedrich Alexander University
- Northeastern University
- National Tsing Hua University
- Purdue University
- Laney College
- University of Illinois at Urbana-Champaign (UIUC)
- MGHPCC Green Team (Univ. of Massachusetts)
- Monash University
- Wake Forest University
- Texas A&M University
- University of Warsaw/University of Wroclaw/Warsaw University of Technology
- Telkom University
- Nanyang Technological University
- Tsinghua University
-
マサチューセッツ大学のチーム。MGHPCC Green Teamという名称は、昔、Massachusetts Green High Performance Computing Centerのメンバーでチームが構成されていた時代に付けられた
-
ワルシャワ大学は1816年の創立でショパンも学んだという歴史を持つ。チームにはUniversity of WroclawとWarsaw University of Technologyのメンバーも入っている
SC18での表彰
最高Linpack性能賞は、56.51TFlopsを達成したNanyang Technological University(南洋理工大)のチームが受賞した。
そして、全体優勝に輝いたのは、中国の清華大学のチームである。本来、表彰台に上がるのは6人のチームメンバーとアドバイザの合計7人の筈であるが、この写真にみられるように清華大学の場合は9名が壇上に上がっている。余計な2名がどういう学生であるのかは不明であるが、準備段階では、課題アプリの調査などの作業を分担していた準メンバー的な学生ではないかと思われる。