RSCCの運用状況

RICCの話に入る前に、運用開始から5年が経過しようとしているRSCCについて少し触れておきたい。そもそもRSCCを導入するきっかけとなったのは、それまでのスパコンシステムが「Fujitsu VPP700E/160」の単一システムであり、ベクトル計算機であるが故にプログラムがベクトル化されていないと性能がでないという問題から、主なユーザーが計算科学分野に限られていたことに対して、パソコン上でのフリーのアプリの多くがスカラ向きであり、実験研究者の利用形態としてアプリは1CPUでも、データ解析で大量のCPUを必要とするといったものが出てきたためであった。そのため、第2世代PCクラスタを導入するきっかけとしての調査、テストが開始されたという。

導入に向けた際の議論としては、2003年当時の時点でPCベースにすることで、故障が頻発するのではないか、センター運用には機能が足りないのではないか、プログラムの並列化(MPI)が大変ではないか、Infinibandの信頼性は大丈夫か、といった話が上がっていた。それぞれに対して、定期保守や並列化の請負サービスの提供といった具合に解決策を提示し、最終的に異なるサブシステムから構成される複合型システムとして運用が開始されることとなった。

RSCCの概要

理研 情報基盤センター 重谷隆之氏

1番の課題と思われていた現在までの障害件数は、月平均で約3件とのことであり、「ベクトル計算機のみの時は2件弱だったことを考えれば増えてはいるが、ベクトル計算機は、不具合があればシステム全体が止まるが、複合型システムでは該当PCだけだ止まるだけで運転自体は行われるのが利点」(理研 情報基盤センター 重谷隆之氏)とする。

ちなみに、故障部品の割合は、メモリが全体の4割で最も多く、HDDが2割、CPUが1割、その他電源やインターコネクト、マザーボードなどの各種パーツが数%程度となっている。不良率の低減について重谷氏は、「導入時の負荷テスト、定期保守での予防交換が重要」としており、定期保守を3カ月に1度の割合で行うことで、不具合の発生を予防することができているとした。

RSCCの障害件数の4割はメモリの不良

利用状況については、2006年11月頃にジョブスケジューラを改良したことで、利用効率が向上、ユーザー数も210名程度から340名弱程度に上昇、以降90%を超す状況が続いており、ジョブの平均待ち時間は2時間程度になっているという。

2006年11月頃から利用率が急激に上昇しているのは、ジョブスケジューラの改良によるところが大きいとのこと

なお、利用研究分野の主な内訳は「原子核・高エネルギー物理学」が61%、「ライフサイエンス」が17%、「物理学」が9%、「情報工学」が7%、「工学」および「化学」がそれぞれ2%となっている。

RSCCを利用している主な研究分野とその内容

RICCの概要とスケジュール

理研 情報基盤センター 黒川原佳氏

RSCCの次期システムとなるRICCのコンセプトは、「RSCCを継承しつつ、新たな要望やこれからの傾向をキャッチアップ」(理研 情報基盤センター 黒川原佳氏)であり、要件としては、「演算性能よりも研究分野で成果の出せる構成」「ガラパゴス化するようなシステムトレンドから外れた構成にはしない」「次世代スパコンに向けたプログラムの開発が可能な構成」「新規ユーザの開拓」「アクセラレータの利用と応用」「オープンソースツールの導入」といった物が掲げられている。

RICCのコンセプトとその要件

システムの構成としては、「PCクラスタ+大容量メモリシステム+アクセラレータ」(同)としており、演算性能はRSCC比で8.5倍、メモリI/O性能は2.5倍程度向上するという。並列PCクラスタのCPUはNehalem Xeonを採用する。また、多目的PCクラスタにはアクセラレータを100個程度搭載する見込みだが、「現時点では何を搭載するかは未定」(同)という公式発言に留まっている。

RICCのシステム構成

RICCのネットワーク構成

RICCのノードアロケーション指針

データ処理系のネットワーク構成(こうした接続方式にすることで、Leaf単体で行うよりも億単位の削減ができるとのこと)

ただし、グラフィックボードの導入は決定であり、2009年8月の利用開始時から搭載、GPU readyのプログラムの導入なども進めていくとする。

このスライドの下部にも書かれているが、「通信がプアという問題が2000年ころの状況を思い出させる」(黒川氏)という

なお、RICCの総演算性能は106+100+64TFlopsになることが予定されている。