そして、QS22ブレードは2個のCELLチップを搭載している。このCELLチップは、PS3に使用されているものとは異なるPowerXCell 8iと呼ばれるHPC計算用に改造されたCELLプロセサである。PowerXCell 8iプロセサは、PowerPCの制御プロセサコアと8個のSPE(Synergistic Processor Element)を持つ点は、PS3のCELLと同じであるが、科学技術計算向けに、倍精度浮動小数点演算性能が強化され、チップに接続するメモリがCELLではRAMBUSのXDRAMであったが、これを標準のDDR2 DRAMに変更し、サポートできるメモリ量を拡大している。

次の2つのチップ写真に示すように、PowerXCell 8iチップでは、8個のSPEの外側にミッキーの耳のように、2個の倍精度浮動小数点演算器が張り出している。また、DDR2化のため、PPEの左側のメモリインタフェースの部分の面積が大幅に増加している。

この2つの写真に見られるように、チップ面積はかなり増大しているが、従来、SPE1個あたり7サイクルに1回の倍精度浮動小数点積和演算しかできなかったものが、1サイクルに2回の積和演算と、倍精度浮動小数点演算に関しては14倍に性能が向上している。また、XDRAMは、高速で一定のバンド幅を実現するために必要なピン数が少ないというメリットがあり、必要なメモリ量が比較的小さいゲーム機には向いているが、大容量を必要とする科学技術計算には適していないという問題があった。PowerXCell 8iでは、これを標準のDDR2に変えることにより、大容量メモリのサポートを可能とし、Roadrunnerに使用されたQS22ブレードではPowerXCell 8iチップあたり4GBのメモリを搭載している。

(左)PowerXCell 8iプロセサのチップ写真(出典:IBMのPowerXCell 8iデータシート)と(右)オリジナルCELLのチップ写真(出典:LANLのRoadrunner説明資料)

Roadrunnerは、このTriBlade計算ノード180個を単位としてConnected Unit(CU)と呼び、さらにこのCUを18個接続したシステムである。一本のロッカーに4台のIBM BladeCenter Hシャシーを搭載し、それぞれのシャシーに3つのTriBlade計算ノードを搭載している。

Roadrunnerの計算ノードロッカー(2本)(出典:LANLのRoadrunnerホームページ)

そして、次の図のように、これらの180個の計算ノードをInfiniBand x4 DDRで接続している。InfiniBand x4 DDRは5Gbit/sの伝送チャネルを4本束ねたたものであり、物理的には20Gbit/sの伝送速度であるが、伝送のために8ビットを10ビットに変換してクロックを埋め込んでおり、実質的な転送速度としては16Gbit/s(=2GB/s)である。

この写真のオレンジのケーブルが計算ノード間を接続するInfiniBand用の光ケーブルである。このように、一本のロッカーに12計算ノードを収容しているので、15本のロッカーでCU一つ分になる。これらのロッカーには、中央の部分にX3655と見られる2Uサーバが搭載されているので、15ロッカーのうちの12本にはX3655 I/Oノードを搭載していると思われる。次の図のように、これらの180個の計算ノードの接続には288ポートのInfiniBandスイッチが使われており、このスイッチを搭載するもう1本のロッカーと合わせて、CUは16本のロッカーで構成されていると思われる。

Connected Unitの構成

そして、12個のX3655 I/OノードからはシステムLANに接続する 10Gbit Ethernetが各2本出ており、これによりファイルシステムやコンソールなどへの接続を行っている。また、この図には描かれていないが、各CUには、サービスノードとしてもう1台のX3655が含まれている。

Roadrunnerの各CUの288Port InfiniBand Switch(出典:LANLのRoadrunnerホームページ)

そして、システム全体としては18個のCUを第二段の288ポートスイッチ8台で接続している。

第二段スイッチにより、18CUを結合

この第二段の288ポートスイッチには6CU分の空きポートがあり、計算ノードの増設だけで33%の性能向上の余地を残している。

システム全体としては、6480個(これに加えてI/Oノードなどに432個)のデュアルコアOpteronと12960個のPowerXCell 8iプロセサを含んでいる。消費電力を抑えるためか、Opteronのクロックは1.8GHzと低めであるが、計算ノードのOpteronだけで46.7TFlops、3.2GHzクロックのPowerXCell8i部は1.33PFlopsのピーク倍精度浮動小数点演算性能を持っている。 そして、各TriBladeから2GB/s同時双方向のInfiniBand x4 DDRリンクが出ており、システム全体を2等分する面を通過できる情報伝送量は3.45TB/s(同時双方向)である。そして、計算ノードのメモリ量の合計は104TBに達する。また、各CUから2本の10GbEリンクでファイルに接続されており、ファイルに対して216GB/sでの転送が可能である。