筑波大学の計算科学センターは、1996年には「CP-PACS」スパコンがTop500の首位になったという歴史を持つ名門計算センターである。

筑波大の強みは、素粒子や原子核物理などの研究グループと高性能計算システムのハード、ソフトを研究するグループを計算科学センターという1つの組織の中に持っており、アプリケーション、アーキテクチャとアルゴリズムの研究者が毎日、顔を合わせて議論して研究を進めるという点にあるという。このような密接な連携から、計算機科学者はユーザのニーズを深く理解し、ユーザも計算機のハードソフトを理解して良いシステム、良い使い方が生まれるという。

筑波大計算科学センターの副センター長の朴教授(右)と高性能計算システムグループの児玉教授(左)

文部科学省(文科省)は、シミュレーションを高度化して生活や科学に役立てる革新的ハイパフォーマンス・コンピューティング・インフラ(HPCI)の構築を推進している。「京スパコン」の開発は11月の共用開始で区切りが付くが、その後は京と全国の主要スパコンセンターと連携した計算環境の構築と運用、そして、各種のシミュレーションにより成果を挙げていくことが重要になる。

シミュレーションを行う戦略分野として生命科学、新物質・エネルギー、防災、もの作りなど5分野が挙げられているが、分野5はシミュレーションを使って「物質と宇宙の起源と構造」の研究を行うというものである。筑波大はこの分野5のとりまとめ機関であり、研究の中核を担っている。

その筑波大で2012年2月に稼働を開始した新スパコンが「HA-PACS」である。

HA-PACSシステムは、

  • 格子QCDによるバリオン相互作用の決定
  • 大規模量子多体計算による核物性解明とその応用
  • 超新星爆発およびブラックホール誕生過程の解明
  • ダークマターの密度ゆらぎから生まれる第一世代天体形成

といったコンピュータシミュレーションによって「物質と宇宙の起源と構造」に迫る研究に使用されるが、それだけではなく、ExaFlopsに向けてのスパコンシステムのハードウェア、ソフトウェアの研究を行うという目的も持っている。

HA-PACSシステムは、大きく分けてベースクラスタ部と密結合並列演算加速機構(Tightly Coupled Accelerators:TCA)部からなっている。

HA-PACSの構成図(出展:筑波大学計算科学研究センター)

ベースクラスタ部は、クロック周波数2.6GHzのXeon E5 (SandyBridge-EP) プロセサ2ソケットに4基のNVIDIA M2090 GPUを接続した計算ノード268ノードからなっている。Xeon E5 プロセサは各40レーンのPCI Express 3.0のポートを持っているので、それぞれのM2090 GPUを×16ポートで接続し、残る×8ポートで一方のXeon E5はデュアルチャネルのInfiniBand(IB)ネットワークアダプタを接続している。×4 QDRの各チャネルは片方向4GB/sのピーク転送速度を持ち、ノード全体では16GB/sのネットワークバンド幅をもっている。そして、もう一方のXeon E5はデュアルチャネルのGbit Ethernetアダプタを接続している。

東京工業大学(東工大)の「TSUBAME2.0」と似た構成であるが、TSUBAME2.0の時代のCPUはWestmere-EPでPCI ExpressはIOHを2個用いても72レーンしかないので3基のGPUしか接続できていないが、HA-PACSではCPUがSandy BridgeになりPCI Expressポートは合計80レーンあるので、4基のGPUがフルバンド幅で接続できる。

HA-PACSの計算ノードの構成(出展:筑波大学計算科学研究センター)

そして各CPUは4チャネルのメモリインタフェースを持ち、それぞれに8GBのDDR3-1600 DIMMを2枚接続し、ノード全体では128GBのメモリ容量で、102.4GB/sのピークメモリバンド幅となっている。

HA-PACSの計算ノード。手前の2基のM2090 GPUはシャシーの手前側のCPUの上に載る

NVIDIAのM2090は1.3GHzクロックで動作するCUDAコアを512個集積したGPUで、倍精度浮動小数点のピーク演算性能は665GFlopsである。そして、6GBのGDDR5メモリを搭載している。計算ノードあたり4基のM2090が搭載されているので、GPU部分のピーク演算性能は2660GFlops、メモリ容量は24GBとなっている。

そして268個の計算ノードをMellanoxの288ポートのQDR InfiniBandスイッチで相互接続している。このスイッチは2台あり、各計算ノードはそれぞれのスイッチに1本ずつのIB接続をもっている。各スイッチは288ポートの内の268ポートを計算ノードの接続に使い、残りの20ポートは8本をファイルシステムとの接続、8本をTCA部との接続、その他をログインサーバやシステム管理サーバとの接続に使用している。

HA-PACSベースクラスタ部のシステム構成(出展:筑波大学計算科学研究センター)

ベースクラスタ部の演算性能は、Xeon E5側が89TFlops、GPU側が713TFlopsで、全体では802TFlopsとなる。そして、メモリはCPU側のメインメモリが34TB、GPU側のメモリが6.4TBとなっている。ファイルシステムはData Direct Networks社のSFA10000を使ったLustreファイルシステムで、容量は504TBである。