日本では10PFlopsを目指す理化学研究所(理研)の京速スーパーコンピュータ(スパコン)、米国ではイリノイ大学に設置予定の「BlueWaters」スパコン計画が進められている。日本の京速スパコンも2009年の閣僚折衝で40億円減ながら予算が認められる方向となり、開発が継続されることになったのは記憶に新しい。

日本の次世代スパコンこと京速スパコンは富士通が開発しており、昨年のSC09で展示されたSPARC64 VIIIfxベースの計算ノードを使用すると見られている。目標性能はLinpackで10PFlopsであり、完成時期は2012年6月の予定である。一方、BlueWatersはIBMが開発しており、昨年のSC09で展示されたPOWER7ベースの計算ノードを使う。公式情報では20万コア以上となっているが、一部の報道ではピーク性能で10PFlops、Linpack性能では8PFlops強と見られている。しかし、2011年の春頃には稼働を始めると見られており、稼働時期は京速スパコンより約1年早い。

IBMのBlueWaters

IBMは、昨年のSC09でPOWER7ベースの計算ノードを展示した。

POWER7 CECのCPU部(左)とスイッチ部(右)

このCentral Electronic Component(CEC)と呼ばれるモジュールは8個のCPU MCM(Multi-Chip Module)と合計128枚のメモリDIMM、8個のスイッチMCMを搭載し、幅が約1m、奥行きが約1.8mと巨大で、重量は約150Kgという。なお、このCECのマザーボードのプリント板は日立製作所が製造しており、その巨大さから、社内では畳と呼ばれているという。

POWER7プロセサについては昨年8月のHot Chipsで発表が行われている。IBMの45nm CMOS SOIプロセスを使用する576mm2という巨大チップで、8コアと32MBのeDRAMの3次キャッシュを搭載している。

Hot Chips 21で発表されたPOWER7のチップ写真とチップの概要(中央に32MBのL3キャッシュが見える)

POWER7はPOWER ISA2.0.6に準拠しており、コアあたり4個の積和演算器を搭載し、サイクルあたり8つの倍精度浮動小数点演算を行うことができる。現在のIntelのNehalemコアが4演算であるのと比較すると2倍の演算数で、次世代のSandy Bridgeの演算数を先取りしている。

BlueWatersでは4個のPOWER7チップを搭載したMCMが使われる。CPU MCMに添えられた説明ではクロックは3.5~4GHzとなっているが、全体では1TFlosとなっているので、BlueWatersでは4GHz動作と考えられる。そして、メモリバンド幅は512GB/s、B/F比は0.5B/Flopとなっている。そして、消費電力はなんと、800Wである。この電力では空冷は困難であり、水冷のコールドプレートによる冷却となっている。

4個のPOWER7チップが搭載されたCPU MCM(上)とスイッチMCM(下)

CECに搭載された水冷のコールドプレート付きのCPU MCM

そして、各MCMには両側に配置された8枚ずつのメモリDIMMが接続されている。このメモリDIMMは標準品ではなく、通常のDIMM 4枚分の容量を持ち、Advanced Bufferと呼ぶインタフェースチップを搭載したIBMの専用品である。このメモリDIMMにもW字型のヒートパイプを内蔵したコールドプレートが装着され、DIMMの両脇の水冷のガイドにねじ止めして放熱されている。さらにCECの一番奥に配置された電源ユニットも水冷であり、CECの中で空冷されているのはPCIカードだけである。

しかし、空冷されるこれらのPCIカードや筺体に搭載されるディスクユニットなどの熱は、筺体の背面につけられた水冷バックドアで吸収し、計算機室の空調負荷はゼロとなっている。

メモリモジュール(左)とスイッチMCMからの光ファイバケーブルの引き出し(右)

CPU MCMと一緒の写真に示したスイッチMCMは中央にスイッチLSIが搭載されているだけであるが、両脇に金色のパッドアレイが56カ所あり、この部分に光と電気を変換するチップが搭載され、CECの外部との接続は光ファイバを介して接続されることになる。スイッチ部の写真にみられるオレンジ色のケーブルは24芯の光ファイバケーブルである。この光インタフェースのチップとファイバの接続形態がどのようになっているのか興味深いところであるが、この部分については、今回の展示では公開されなかった。

CPU MCMとスイッチMCM間のバンド幅は192GB/s、CEC内の8個のスイッチMCM間は各48GB/sの電気リンクで結ばれている。そしてシステムでは、4個のCECのグループを単位としてこれをスーパーノードと呼ぶ。各CECからは48本の光ケーブルが出ており、これでスーパーノード内の他のCECへ16本ずつの接続を行う。スーパーノード内のCEC間の接続バンド幅は各640GB/sであり、これを16個の光コネクタが賄っているので、コネクタ当たりのバンド幅は40GB/sという計算になる。また、各CECにはスーパーノード間を接続するファイバ用の128個の光コネクタがあり、最大では512スーパーノードのシステムが構成できる。スーパーノード間の接続は各20GB/sである。この最大構成では1万6,384MCMとなり16PFlopsのシステムとなる。

各スイッチMCMには56個の光電気変換チップが搭載されるが、オレンジ色の光ケーブルの本数は21本である。このケーブルは24芯で各10Gbit/sであり、ケーブル1本当たり30GB/sである。したがって、21本合計で630GB/sのバンド幅であるが、スイッチMCMからの外部接続はスーパーノード内とスーパーノード間を合わせて560GB/sであり、70GB/sの余裕がある。具体的な構成は不明であるが、冗長構成をとっており、光モジュールのレーザーが故障してもスペアに切り換えて動作を継続することが可能であるという。