SC17で、Oak Ridge国立研究所の歴代のスパコンの故障を長期的に観測し、故障を分析した論文が発表された。発表者のSaurabh Gupta氏の所属はIntel Labsとなっているが、タイトルスライドにはIntelのロゴは無いので、この研究を行った時には、Oak Ridge国立研究所かNortheastern大学の所属であったのではないかと思われる。
測定の対象は、Jaguar XT4、Jaguar XT5、Jaguar XK6、Eos XC30、Titan XK7の5システムである。Jaguar XT4スパコンは2008年1月から測定を開始し、現役のTitan XK7スパコンの2015年9月までのデータが含まれており、測定期間は、足掛け7年と9か月という長期間に及ぶ。
次の図の表には、各システムが使っているプロセサやインタコネクト、そしてノード数などが書かれている。
この測定には、10億コンピュートノード時間のFailure(故障)の事象が含まれている。字が小さく見づらいが、左の表が発生した故障の事象の一覧で、CPUのハングやHyperTransportのロックアップからインタコネクトの各種故障、OSのパニックなどがリストに含まれている。
ここで言うFailureはアプリケーションをアボートさせたものだけを対象としている。そして、実際にシステムが稼働しているときの測定であるので、どのようなアプリケーションを実行しているかなどは一定していない状態での測定である。
また、この測定や分析では、Failureの根本原因は追究していない。
次の図は、5システムのMTBF(Mean Time Between Failure:平均故障間隔)をプロットしたものである。これらのシステムはノード数が異なるが、このグラフは、同じノード数であったとした場合に正規化されたシステムのMTBFとなっている。
最近のシステムは故障が増えているのではないかという疑いもあったが、このグラフからは、最近のシステムのMTBFが短くなってきているという傾向は見えない。
次の図は、それぞれのシステムの故障原因を頻度の多い順にならべた棒グラフである。XT4システムでは、1位はMCE(Machine Check Error:メモリのECCやパリティチェック故障)、2位がノード故障で鼓動(Heart Beat)の停止、3位がカーネルのパニックとなっている。XT5ではMCE、カーネルパニック、鼓動停止の順であるが、上位3種の故障の顔ぶれは同じである。また、XK6では鼓動停止、MCE、カーネルパニックの順であるが、これも顔ぶれは同じである。
最新のTitanでは、1位はMCE、2位はカーネルパニックで、他のシステムと共通しているが、3位はSMX_Power_Offとなっている。しかし、SMXがオフになってしまうとノードが応答しなくなるので、これも鼓動停止の1つの形態と見ると、上位3つの故障は、Eosを除くシステムでは同じとなっている。
また、XT4とXT5ではノード間を接続するSeaStarインタコネクトの故障が上位に顔を出しているが、XK6、XK7ではインタコネクトの故障は棒グラフには出てこず、大きくインタコネクトの信頼度が改善されたようである。
次の図はJaguar XT5の主要な4種類の故障の四半期ごとの故障比率の推移をプロットしたものである。これらの上位数種類の故障が、システムとしての故障の大部分を占めている。しかし、四半期ごとの推移は、故障の種類により異なり明確な傾向は見られない。
次の図は、各システムのそれぞれのタイプの故障が、散発的にぽつぽつと起こっているのか、1つの故障が起こると、同じ故障が短い期間の内に再発する可能性が高いかを示すパラメタを示す棒グラフである。このグラフの値が小さい故障は再発の起こる確率が高い故障であり、値が大きい故障は、短時間の内の再発が起こりにくく、ぽつぽつと故障が起こることを示している。
なお、XK6、XK7で最も再発性が高いLBUGはLusterファイルシステムのバグに起因する故障である。
次の図の左の4つの棒グラフはXT4、XT5、Titanと全システム合計の曜日ごとの正規化した故障率を示す。また、右の4つのグラフは曜日ごとのMCE(メモリ故障)故障率を示す。
すべての故障を数える左のグラフでは、週末の土日の故障が明らかに少ない。一方、メモリ故障だけを数える右のグラフでは土日の落ち込みが見られない。
土日は利用率が低下するため、故障が減ると考えられる。一方、メモリ故障は自動的にログされるので、土日の故障数の落ち込みが小さいのではないかと思われる。
次の図はXT5、XK6、XK7システムのキャビネットごとの故障率を示すものである。1つの四角が1キャビネットに対応し、色の濃さで故障率の高さを示している。
キャビネットごとの故障率は一定ではなく、大きなばらつきがある。スケジューラの影響で、故障率の高いキャビネットに負荷がかかっているのかも知れない。
安定期であっても、システムの信頼性には大きなばらつきがある。また、システムの故障状況を表すには、MTBFだけでなく空間的、あるいは時間的な故障特性を把握することが必要である。そして、空間的、時間的な故障の分布は、ほとんどの場合、利用されていないが、ジョブスケジューラ、システム管理者、システム調達者はこの分布を利用して信頼性を改善できる可能性がある。
大規模スパコンでは故障が大きな問題であり、故障がどのように発生するかに関してデータを集め、故障の発生特性を理解する研究は地味ではあるが、重要である。