第32回Top500の結果

第32回Top500の結果は11月14日にTop500のWebサイトで発表され、今年6月にトップとなったRoadrunnerが当初の17CU(1CUは、Opteron2個とPowerXCell 8i 4個からなる計算ノード180個をInfiniBandで接続したもの)から18CUに小幅の増設を行い、ORNLの新Jaguarシステムを僅差で押さえてトップの座を維持したのであるが、11月18日にSC08のBoF(Bird of Feathers:同好の士の集まり)でこの表彰が行われた。

Top500の表彰(左から、主催者のH.Meuer教授、E.Strohmaier氏、J.Dongarra教授、H.Simon氏)

そして、性能トップのLANLのRoadrunner、2位のORNLのJaguar、3位のNASA AmesのPleiadesの関係者に賞状とT-シャツが贈られた。

1位の賞状をもつRoadrunner関係者

T-シャツを着て、賞状をもつ1~3位の受賞システムの関係者

このT-シャツには、トップはMine's Bigger(俺の方が大きい)、2位はMine's Versatile and Stays Up Longer(俺の方が用途が広いし、長時間故障しない)、3位はWhen the Moment is Right、Mine Will Be Ready(時が来れば、俺のも準備が整う)と書かれている。

そして、全体11位でヨーロッパの第1位のドイツのFZJのJUGENEと、全体10位でアジア第1位の上海超級計算センターのDawning 5000Aが表彰されたが、上海超級計算センターの関係者もハードを作った曙光の関係者も会場には来ておらず、OSを作ったMicrosoftの人が賞状を受け取った。

2位のJaguarシステムであるが、筐体の横腹にジャガーがデカデカと描かれており、格好が良い。

ORNLのJaguarシステム(出典:ORNLのWebサイト)

次世代日の丸スパコンも日章旗や旭日旗をデカデカと書いてはどうかと思うが、そんなデコレーションは、多分、理研はやらないだろう。

また、Top500の性能評価に用いられているLinpackの計算は、メモリ使用量は行列の元数の2乗に比例し、計算量は3乗に比例する。このため、元数の大きな計算をする方が性能を上げやすい。しかし、システムが大きくなるにつれて計算能力に比例してメモリ容量も大きくなるので、メモリ一杯の行列を使うと、年々、Linpackの計算に必要な時間が伸びてしまう傾向にある。

しかし、巨大なシステム全体を使ってしまうLinpackの測定は、現実には、本運用の開始前の限られた時間しか実行できない。また、パラメタのチューニングを行うためには何度も走らせる必要があり、1回の実行に1日以上かかるようになると、測定の実行自体が困難になってしまう。

ということで、実行時間を妥当な範囲に収めるように、Top500の測定ルールの変更を検討しているという。

Linpackの計算処理量の変化を示す図(横軸は開始からの時間で、縦軸は単位時間あたりの演算量)

しかし、Linpackは大きな行列をタマネギの皮をむくように処理していくので、順次、処理する行列が小さくなる。

したがって、上のスライドの写真に示すように計算の最初の方と、終わりの方では計算とメモリアクセスや通信のバランスが変わってしまうので、最初の方だけをやるというわけにはいかない。飛び飛びにサンプリングして実行するという方法も考えられるがどこを取るべきか、また、答え合わせが出来ないという問題がある。などなど、従来の結果と連続性をもつような短時間の測定法は単純ではなく、どうすべきかの検討を続けているという。

現在の計画では、次回のTop500を発表する来年6月のハンブルグでのInternational Supercomputing Conference(ISC)の頃には変更案を提示したいと考えているとのことであった。

どのようなルールになるのかは不明であるが、開発中の日の丸スパコンのチューニングには何らかの影響が出てくるものと思われる。