TSUBAME1.0は、655台のSun MicrosystemsのX4600サーバをInfiniBandで接続したスパコンである。X4600は2.4GHzクロックのデュアルコアOpteronを8ソケット搭載するサーバで、これにClearSpeedの浮動小数点演算アクセラレータが追加されている。このClearSpeedアクセラレータは、クロックは210MHzとあまり速くはないが、1チップに96演算コアを集積しており毎サイクル384演算を実行することができる。ということで、システム全体では、Opteron部分の倍精度浮動小数点演算能力は50.3TFlops、ClearSpeed部分の演算能力は29TFlopsであり、全体として約80TFlopsのピーク演算能力を持っている。

これに対して、TSUBMA1.2では、NVIDIAのGPUボード「Tesla 10」を680枚追加する。また、TSUBAME1.2では、TSUBASAとco-TSUMBAMEというそれぞれ90ノードのXeonブレードサーバクラスタが増設され、全体構成は図のようになる。

TSUBAME1.2システムの構成(赤字で書かれた部分が、追加される部分)>

提供:東工大GSICセンター

TSUBASAシステムと呼ぶXeonクラスタは、8ソケットのクワッドコアXeonブレード90枚からなるシステムで、8.2TFlopsの倍精度浮動小数点演算性能を持ってる。このTSUBASAは、5台の24ポートIBスイッチ経由でTSUBAMEのバックボーンに接続されている。

90ブレード TSUBASAシステムの構成

そして、TSUBAMEに増設される「Tesla S1070」のGPU自体は、同社の最新のグラッフィクスボードに使用さているGTX 280と基本的には同じものであるが、コアの動作クロックはGTX 280が1,296MHzであるのに対して、Tesla 10では1.44GHzに引き上げられている。従って、クロック周波数に比例してチップあたりの単精度浮動小数点演算性能は1TFlopsを超え、倍精度浮動小数点演算性能は86.4GFlopsとなっている。

しかし、消費電力を抑えるためか、メモリクロックはGTX 280が1,107MHzであるのに対して800MHzにダウンしており、メモリバンド幅は102GB/sとなっている。もちろん、102GB/sでもNehalem-EPの4倍であり、メモリ容量に制約はあるものの、Xeonに比べるとぶっちぎりのバンド幅である。

そして、Tesla S1070は、4枚のGPUボードを1Uのスリムな筐体に収容し、2本のPCI-Express 2.0 x16でホストサーバに接続する構成となっている。ただし、TSUBAMEの場合は、2年前に設置したX4600がPCI-Express 1.0のx8インタフェースしか持っておらず、S1070との間のバンド幅をフルに利用することはできない。

「Tesla S1070」(左下と右上付近にある銅色のものがGPUのヒートシンクである。左上と右下の黒い部分は裏向きのGPUボードのGPU取り付け部分)

提供:東工大GSICセンター

この写真に見られる大型のヒートシンクが付いたのがGPUであり、2枚ずつ裏表に搭載されている。ペアとなるGPUボードを裏向きで180度回転して搭載しているので、両方のボードの同じ信号ピンが同じ位置になるという上手い実装である。そして、このペアのボードを1チャネルのPCI-Express 2.0に接続していると思われる。

Tesla S1070は、筐体は1Uとスリムであるが、消費電力は700Wとかなりのものであり、それだけを纏めてロッカーに詰め込むと放熱が問題となる。また、ホストサーバとなるX4600に接続する必要があるので、S1070だけを独立の筐体に詰め込むのではなく、X4600を収容するロッカーのX4600の隙間に実装している。

TSUBAME1.0を止められず、この増設はシステムが稼働中に実施したとのことで、担当した某N社のフィールドエンジニアは相当苦労をしたようである。

(左)X4600の隙間に1UのS1070を挿入している様子(右)Teslaのロゴ(写真では判別困難である)を指差す松岡聡教授

提供:東工大GSICセンター