【レポート】

国内最速スパコン 東工大「TSUBAME」の飛翔

5 TSUBAMEシステムの冷却装置と故障の状況

    安藤壽茂  [2007/01/08]

    TSUBAMEシステムの冷却装置と故障の状況

    TSUBAMEの消費電力は地球シミュレータの11MWと比較すると非常に小さく、サーバとネットワーク機器の消費電力は合計で最大1.2MWであるが、メインコンピュータルームでは、空調機とサーバラックの列をペアにし、サーバからの温まった排気をすぐ隣の空調機が吸い込み、冷却して天井のダクトを経由してペアのサーバの前面に吹き降ろすという短いループの効率の良い冷却を行っている。また、温まった排気が前面に廻りこまないようにサーバラックの上端と天井の間はアクリル板で塞がれている。

    サーバラックの前面側に冷気を吹き降ろすグリルが天井に並んでいる。また、サーバラックの上と天井の間はアクリル板で塞がれている。この写真では見えないが、サーバラックの裏にはペアとなる空調機が並んでいる

    そして、空調機で吸収した熱は、冷却水でセンターの屋根に設置したクーリングタワーに導かれ、ここから大気に放熱する。しかし、クーリングタワーの重量が問題で、鉄骨で屋根を補強して搭載したということであった。

    GSICの建屋とその屋上に並ぶ32基のクーリングタワーの一部

    このような大規模なシステムになると故障の頻度が気になるので、ちょっと意地悪な質問として故障について質問をすると、東工大のGSICでは故障に関する情報もWebでオープンにしているという回答であった。ちょっと驚いたことには、実は、この情報は、TSUBAMEのアカウントを持っていない外部ユーザでも参照できるページに掲載されており、筆者が自宅からアクセスした最初のページを次の図に示す。

    この障害ログの対処内容の欄を見ると、1、3、6番目の項はハードの故障で交換されているが、その他は、2項目が原因調査中で、それ以外はリブートなどで復旧している。また、12月に入ってのX4600サーバのハード故障は計4回である。インタビュー時に説明して頂いた稼動初期のデータでは、24日間で計算ノードのX4600のダウンは34回で、その内の22回はユーザの使用法誤りやOSなどのソフト障害で、これはユーザの習熟やOSのバグ修正などで、時間とともに減少する性質のダウンである。残りの12回の内、3回がハード故障で交換、9回はリブートで復旧し、宇宙線によるエラーの可能性などを含めて原因不明。X4500は4件のディスク故障が発生したが、RAID構成であり実行中のプログラムには支障の無いものであったという。

    まあ、この規模のスパコンの計算ノードとしては1週間に1台程度のハード故障というのは普通の頻度であると思われる。

    新着記事

    特設サイトの情報

      人気記事

      一覧

        イチオシ記事

        新着記事

        特別企画

        マイナビニュースマガジン