【レポート】
TSUBAMEの消費電力は地球シミュレータの11MWと比較すると非常に小さく、サーバとネットワーク機器の消費電力は合計で最大1.2MWであるが、メインコンピュータルームでは、空調機とサーバラックの列をペアにし、サーバからの温まった排気をすぐ隣の空調機が吸い込み、冷却して天井のダクトを経由してペアのサーバの前面に吹き降ろすという短いループの効率の良い冷却を行っている。また、温まった排気が前面に廻りこまないようにサーバラックの上端と天井の間はアクリル板で塞がれている。
そして、空調機で吸収した熱は、冷却水でセンターの屋根に設置したクーリングタワーに導かれ、ここから大気に放熱する。しかし、クーリングタワーの重量が問題で、鉄骨で屋根を補強して搭載したということであった。
このような大規模なシステムになると故障の頻度が気になるので、ちょっと意地悪な質問として故障について質問をすると、東工大のGSICでは故障に関する情報もWebでオープンにしているという回答であった。ちょっと驚いたことには、実は、この情報は、TSUBAMEのアカウントを持っていない外部ユーザでも参照できるページに掲載されており、筆者が自宅からアクセスした最初のページを次の図に示す。
この障害ログの対処内容の欄を見ると、1、3、6番目の項はハードの故障で交換されているが、その他は、2項目が原因調査中で、それ以外はリブートなどで復旧している。また、12月に入ってのX4600サーバのハード故障は計4回である。インタビュー時に説明して頂いた稼動初期のデータでは、24日間で計算ノードのX4600のダウンは34回で、その内の22回はユーザの使用法誤りやOSなどのソフト障害で、これはユーザの習熟やOSのバグ修正などで、時間とともに減少する性質のダウンである。残りの12回の内、3回がハード故障で交換、9回はリブートで復旧し、宇宙線によるエラーの可能性などを含めて原因不明。X4500は4件のディスク故障が発生したが、RAID構成であり実行中のプログラムには支障の無いものであったという。
まあ、この規模のスパコンの計算ノードとしては1週間に1台程度のハード故障というのは普通の頻度であると思われる。
| トマトを食べれば痩せられる!? -京大ら、新発見の成分で肥満改善効果を実証 [21:00 2/10] |
| JAXA、液体シリコン中に残存する共有結合を観察 -大口径ウェハの実現に期待 [20:11 2/10] |
| NEDOなど、熱膨張が小さな樹脂複合材料ペレットの量産化に成功 [19:22 2/10] |
| 理研、一般顕微鏡を蛍光顕微鏡に強化できるアダプタを試作して性能を実証 [19:15 2/10] |
| 天の川のブラックホールが小惑星を飲み込んでいる - NASAが発表 [18:08 2/10] |
|
【レポート】「appliko」がオススメAndroidアプリを紹介!! - 1月31日~2月8日のAndroidアプリランキング [01:30 2/11] 携帯 |
|
【レポート】人気の無料/有料アプリを毎週紹介 - 1月31日~2月8日のAndroidアプリランキング [01:00 2/11] 携帯 |
|
渡部篤郎主演でドラマ化!地元新聞社が伝え続けた東日本大震災の物語 [00:08 2/11] キャリア |
|
沖縄発ヒーロー革命!「琉神マブヤー」が海を越えハワイを目指す! [00:08 2/11] キャリア |
|
中国四川省、パンダの保護と生態研究の最新情報とは? [00:08 2/11] キャリア |