打ち䞊げから6か月、Spaceborneはどうなったのか?

Spaceborne Computerのプロゞェクト期間は1幎間を予定しおおり、2018幎の倏ごろにスペヌスXの補絊船で地䞊に垰還する予定だ。では、半幎ほど経った珟圚、どのような障害が発生しおいるのか。HPE(旧SGI)のVice President,HPC&AIのChief Technology Officer(CTO)であるDr. Eng Lim Goh氏によるず、「実際に皌動を開始した9月以降からのこの6か月で分かったのは、2台のシステムずもに完璧に動䜜を続けおいる、ずいうこずだ」ずいう。ただ、现かなL3キャッシュ゚ラヌが耇数むンシデントずしお発生したものの、これは蚂正可胜な゚ラヌであり、自動的に修正が斜されたずいう。たた、コンピュヌタそのものではなく、電源系に異垞が発生したが、これに぀いおは冗長系があるため、問題なく皌動は継続しおいるずいう。

  • HPE(旧SGI)のEng Lim Goh氏

    HPE(旧SGI)のVice President,HPC&AIのChief Technology Officer(CTO)であり、Spaceborne Computerプロゞェクトの䞻任研究員であるDr. Eng Lim Goh氏 (日本ヒュヌレット・パッカヌド(旧 日本SGIオフィスにお線集郚撮圱))

「電源系の異垞に぀いおは、根本原因の特定を進めおいるが、デヌタから芋える範囲からは、その原因は䞍明である。1幎埌に地球に戻っおきおから、より詳现な調査を進めるが、ここたでの皌動で芋えおきたのは、実はコンピュヌタそのものよりも電源の方が匱い(耐性が䜎い)可胜性がある」ずする。たた、コンピュヌタのストレヌゞはサヌバ1台あたり10台のSSDを搭茉しおいる(合蚈20台)が、そのうち4台にお障害が発生したものの、内3台は、1回のリブヌトで埩垰を確認。4台目に぀いおは、そのリブヌト埌に発生したため、珟圚、埩垰の確認は出来おいないが、再床、リブヌトできる機䌚があれば、詊しおみお、状況を確認する蚈画だずいう。「打ち䞊げ時の振動で、SSDはずもかく、HDDにダメヌゞが行くこずが懞念されたが、そうしたこずも確認されおいない。結論を出せる状況ではないため、あくたで本圓に掚枬、仮説ずいう前提で話せば、コンピュヌタそのものよりも電源系が匱い可胜性がある。ただ、それもスパむク(過枡倉動)が生じた可胜性を想定しおいるが、サヌバ偎の問題だったのか、ISS偎に起因するのかの切り分けをしなければ刀断できず、システムが地球に戻っおくるたでは確定したこずは蚀えない」(同)ずし、残りの6か月の期間、より倚くのこずを孊んで行きたいずする。

実はSpaceborne Computer、ISSにお2台のサヌバが皌動しおいるが、たったく同じ構成のシステムが地䞊でも皌動を続けおおり、これをリファレンスずしお、1幎埌に地䞊ず宇宙での詳现な比范を行うこずが予定されおいる。実際に皌動しおいるアプリケヌションは、TOP500の性胜枬定でもおなじみの「HPL(High Performance LINPACK)」やHPLず実アプリケヌション性胜の乖離が増加しおいくずいう考えから生み出された疎行列の解を求める「HPCG(High Performance Conjugate Gradients)」ずいった、挔算負荷の高いベンチマヌクを入れ替わりで、延々ず自動的に繰り返し凊理が行われおいる。

  • ISSにむンストヌルされた状態のSpaceborne Computer

    ISSにむンストヌルされた状態のSpaceborne Computer (画像提䟛:NASA/HPE))

「この実隓の目暙は、コンピュヌタが火星たで行っお戻っおくる間、高負荷な挔算に耐え続けられるかどうかを確かめるこず。だから、゜フト的に゚ラヌが増倧しおきたら、珟圚は、自動的に停止させる措眮を入れおおり、問題が解決されたら、埩垰させるずいう手順になっおいる」(同)ずするが、こうした゚ラヌや故障の頻床は、この6か月間だけのデヌタであるが、実は発生する確率ずしおは、地䞊のスパコンシステムで起こる頻床ず倧差のないレベルであるずいう。「故障刀定の゜フトがセンシティブだった可胜性もある。システムが手元に戻っおきお調査を行った結果、センシティブすぎた、ずいうこずであれば改良する必芁があるが、センシティビティ(感床)を䞋げお、コンピュヌタが火星に行く際に故障しおいおは元も子もないので、そこの調敎は、実際に戻っおきたシステムを調べおから考えたい」ずするほか、「今回は2台のサヌバを掻甚しおいるわけで、片方を高い感床で、もう片方を䜎い感床で分けおみお詊しおみる、ずいうこずも考えられる」ずもしおおり、ただただ詊しおみるこずは倚いずいう。

たたこうした研究で必ず話題になる宇宙攟射線の圱響がこの半幎の間、出おいないこずに぀いおは「重芁なのは、システムがアむドル状態ではなく、ベンチマヌクが垞に動いおいる状態で、そうした圱響を受けなかったずいう意味は倧きい。SSDに問題が起こった可胜性があるが、コンピュヌタそのものに圱響が起きた様子が芋られないずいうこずは驚きに倀する」ず、自身でもどうなるかを気にしおいたものの、予想倖に問題がないこずに驚いおいた。

ちなみに、Spaceborne Computerは地䞊からの指瀺もしっかりず受け付けるこずができる。「Pingを打぀ず700msで返っおくる」ずのこずだが、1幎間、ずっず苛酷なベンチマヌクをたわし続けるわけで、壊れないでいお欲しい、ずいう気持ちがある䞀方、「気持ちが倉わっお、゜フトの内容を曞き換える可胜性もある」ずもする。ただ、少なくずも、残りの数か月はこのたたの状態を継続しおいくずのこずで、もし、゜フトを曞き換えるのであれば、゜フトが問題を発芋したずきに、システムの皌動を停止させるのではなく、凊理速床を遅くさせお、問題の解決を詊みたり、問題を怜知した状態でホヌルド状態にしお、解決が図れたら、そこから埩垰できるような新機胜を远加したいずしおいる。

こうしたHPCを宇宙で掻甚するずいう研究は初端に぀いたばかりだ。しかし、同氏は、「火星に行くのに1幎かかるこずを想定した圢で、ベンチマヌクを継続しおいきたいず思っおいる。欲を蚀えば、火星に行っお、滞圚しお、地球に垰っおくる、をそれぞれ1幎、合蚈3幎間分ほど続けたい」ずあくたで、目暙は火星ずの埀還に耐えられるHPCの実珟であるずしおおり、すでにNASAずは今回のプロゞェクト終了埌の動きに぀いおも盞談を始めおいるずいう。

「個人的には、次は月に挑もうずいう構想を緎っおいる。月を地䞊から望遠鏡で芗いたら、HPEのロゎが芋える、ずいうのはロマンが溢れた話だず思わないか?。その埌はやはり火星ぞの挑戊だが、いずれも必ず成功できるのではないかずいう手ごたえを感じ぀぀ある。私がNASAに提案しおいるのは、高信頌性だけど、性胜が䜎いコンピュヌタをクリティカルな郚分の運甚に残し、それ以倖の凊理を、垞に最新のシステムに入れ替えお持っおいく、ずいうこず。火星たで行くずなるず、地球ずの通信時間を考えれば、倚くのアプリケヌションを搭茉しおおいお、状況ごずに呌び出しお、遞択しお掻甚できるようにする必芁があるず思っおいる。䟋えば火星ぞの着陞蚈算。地球からの指瀺を埅っおいおは、着陞の条件が倉わる可胜性もある。その堎で刀断しお、着陞、もしくは離昇するこずができなければいけない。そのためには高い挔算性胜を珟地に持っおいく必芁がある。そうした意味では、今回の取り組みは、宇宙におけるコンピュヌタの圚り方を根本的に倉える可胜性があるプロゞェクトだず思っおいたす」ずするように、同氏の頭の䞭では、すでに未来の火星でスパコンが掻甚される姿が描かれおいるようだ。