日本からの論文発表

SC08では59件の論文が発表されたが、投稿論文数は277であり、採択率21%とかなり狭き門である。日本からの採択論文は、

  • Bandwidth Intensive 3-D FFT Kernel for GPUs using CUDA(東工大、JST)
  • Performance Optimization of TCP/IP over 10 Gigabit Ethernet by Precise Instrumentation (Google、東大)
  • Performance Prediction of Large-scale Parallel System and Application using Macro-level Simulation (ISIT、富士通、九大、理研)

の3件である。日本発の論文は全体の5%であり、多いとはいえないが、昨年は国立天文台と東大などの共著のGrape-DRの論文1件であったと記憶しているので、それに比べれば大幅増である。

最優秀論文

59件の論文発表の中で、最優秀論文賞を受賞したのは、「High-Radix Crossbar Switches Enabled by Proximity Connections」と題するSun MicrosystemsとCastilla-La Mancha大の共著の論文で、SunのHans Eberle氏が発表を行った。

Sunの開発したProximity Connection技術は、チップの表面に配線金属のパッドを設け、チップの表面同士を対抗させるように近接して配置して、パッド間の静電容量を通して信号を伝送する技術である。通常のバンプでの接続と比べて、高い密度で信号端子が作れるので、チップの端にパッド群を設け、互い違いに裏、表、裏、表とずらせながらチップを繋いでいくと、大きな2次元の配列が作れる。各チップにクロスバスイッチを作り、それらを2次元に繋ぐと、ポート数の多い(High-Radix)のクロスバが作れるというものである。

一方、従来の技術では、例えば24ポートのクロスバのチップを多段に接続して大きなスイッチを作る方法が用いられており、この方法で288ポートのスイッチを作るには、24個の24ポートスイッチが必要になり、スイッチ通過段数は3段となる。また、1728ポートのスイッチは360個の24ポートスイッチを必要とし、5段の通過段数となる。

この論文は、Proximity Connection技術を使った1段のクロスバと、上記の24ポートスイッチを多段に接続する構成に対して、各種の通信パターンにおける通信遅延をシミュレーションによって比較を行っている。結論として、24ポートスイッチの多段接続は、通過段数が多く、通信量が少ない場合にも遅延時間が長い。また、通信パターンに偏りがあると、混みあった部分で渋滞が発生して遅延が急増するという問題がある。

一方、Proximity Connection技術を使う一段のクロスバでは、これらの問題は無いが、通信量が多くなると、アービトレーション(複数の入力ポートから同一の出力ポートへの出力が重なると、優先順位を決める必要がある)に必要な時間が長くなるという問題があることが分かったという。

論文に示された図では、一様なパターンで通信量が多い場合には、多段網よりも遅延時間が長くなっており、この問題の改善が今後の課題であると書かれている。

学生論文の最優秀賞

学生の論文の最優秀論文に選ばれたのは、「Benchmarking GPUs to Tune Dense Linear Algebra」と題するU.C.BerkeleyのVasily Volkov氏の論文である。この論文はNVIDIAのGPUの構造を測定から推測し、それに対応したプログラミングを行うことにより、密行列の掛け算やLU分解などについて、NVIDIAのCUDA BLASSと比較して高性能を達成したというものである。

行列積の場合、CUDA BLASSでは8x、9xシリーズGPUの場合、ピーク演算性能の36~37%、GTX-280の場合でも44%しか実現できていないが、この論文のチューニングでは58~60%の性能を実現している。