SC17 - 巨大スパコンの故障を分析する

SC17で、Oak Ridge国立研究所の歴代のスパコンの故障を長期的に観測し、故障を分析した論文が発表された。発表者のSaurabh Gupta氏の所属はIntel Labsとなっているが、タイトルスライドにはIntelのロゴは無いので、この研究を行った時には、Oak Ridge国立研究所かNortheastern大学の所属であったのではないかと思われる。

Oak Ridge国立研究所の歴代スパコンの故障を測定し、その分析を行った論文。発表者の所属はIntel Labsとなっているが、最近、Intelに移ったのではないかと思われる (このレポートの図は、Gupta氏の発表スライドを撮影したものと、論文からの図表のコピーである)

測定の対象は、Jaguar XT4、Jaguar XT5、Jaguar XK6、Eos XC30、Titan XK7の5システムである。Jaguar XT4スパコンは2008年1月から測定を開始し、現役のTitan XK7スパコンの2015年9月までのデータが含まれており、測定期間は、足掛け7年と9か月という長期間に及ぶ。

次の図の表には、各システムが使っているプロセサやインタコネクト、そしてノード数などが書かれている。

測定対象はJaguar XT4、Jaguar XT5、Jaguar XK6、Eos XC30、Titan XK7の5システム。測定期間は2008年1月から2015年9月までの足掛け7年と9か月に及ぶ

この測定には、10億コンピュートノード時間のFailure(故障)の事象が含まれている。字が小さく見づらいが、左の表が発生した故障の事象の一覧で、CPUのハングやHyperTransportのロックアップからインタコネクトの各種故障、OSのパニックなどがリストに含まれている。

ここで言うFailureはアプリケーションをアボートさせたものだけを対象としている。そして、実際にシステムが稼働しているときの測定であるので、どのようなアプリケーションを実行しているかなどは一定していない状態での測定である。

また、この測定や分析では、Failureの根本原因は追究していない。

Failureの一覧。アプリケーションをアボートさせたものだけを対象としている

次の図は、5システムのMTBF(Mean Time Between Failure:平均故障間隔)をプロットしたものである。これらのシステムはノード数が異なるが、このグラフは、同じノード数であったとした場合に正規化されたシステムのMTBFとなっている。

最近のシステムは故障が増えているのではないかという疑いもあったが、このグラフからは、最近のシステムのMTBFが短くなってきているという傾向は見えない。

同一ノード数に正規化した各システムのMTBFの推移。最近のシステムのMTBFが短くなっているという傾向は見られない

次の図は、それぞれのシステムの故障原因を頻度の多い順にならべた棒グラフである。XT4システムでは、1位はMCE(Machine Check Error:メモリのECCやパリティチェック故障)、2位がノード故障で鼓動(Heart Beat)の停止、3位がカーネルのパニックとなっている。XT5ではMCE、カーネルパニック、鼓動停止の順であるが、上位3種の故障の顔ぶれは同じである。また、XK6では鼓動停止、MCE、カーネルパニックの順であるが、これも顔ぶれは同じである。

最新のTitanでは、1位はMCE、2位はカーネルパニックで、他のシステムと共通しているが、3位はSMX_Power_Offとなっている。しかし、SMXがオフになってしまうとノードが応答しなくなるので、これも鼓動停止の1つの形態と見ると、上位3つの故障は、Eosを除くシステムでは同じとなっている。

また、XT4とXT5ではノード間を接続するSeaStarインタコネクトの故障が上位に顔を出しているが、XK6、XK7ではインタコネクトの故障は棒グラフには出てこず、大きくインタコネクトの信頼度が改善されたようである。

各システムの主要な故障の発生頻度の棒グラフ。メモリ故障のMCE、カーネルパニックなどが頻度が高い故障である

次の図はJaguar XT5の主要な4種類の故障の四半期ごとの故障比率の推移をプロットしたものである。これらの上位数種類の故障が、システムとしての故障の大部分を占めている。しかし、四半期ごとの推移は、故障の種類により異なり明確な傾向は見られない。

XT5システムの主要な4故障の四半期ごとの発生頻度の推移

次の図は、各システムのそれぞれのタイプの故障が、散発的にぽつぽつと起こっているのか、1つの故障が起こると、同じ故障が短い期間の内に再発する可能性が高いかを示すパラメタを示す棒グラフである。このグラフの値が小さい故障は再発の起こる確率が高い故障であり、値が大きい故障は、短時間の内の再発が起こりにくく、ぽつぽつと故障が起こることを示している。

なお、XK6、XK7で最も再発性が高いLBUGはLusterファイルシステムのバグに起因する故障である。

故障の短時間の再発の起こりやすさを分析したグラフ。値が小さい故障は再発性が高く、値が大きい故障は再発性が低く、ぽつぽつと発生する

次の図の左の4つの棒グラフはXT4、XT5、Titanと全システム合計の曜日ごとの正規化した故障率を示す。また、右の4つのグラフは曜日ごとのMCE(メモリ故障)故障率を示す。

すべての故障を数える左のグラフでは、週末の土日の故障が明らかに少ない。一方、メモリ故障だけを数える右のグラフでは土日の落ち込みが見られない。

土日は利用率が低下するため、故障が減ると考えられる。一方、メモリ故障は自動的にログされるので、土日の故障数の落ち込みが小さいのではないかと思われる。

曜日別の故障の発生。左は全故障をカウントしたもので、右はメモリ故障だけをカウントしたグラフ。全故障は、週末には明確に減少している

次の図はXT5、XK6、XK7システムのキャビネットごとの故障率を示すものである。1つの四角が1キャビネットに対応し、色の濃さで故障率の高さを示している。

キャビネットごとの故障率は一定ではなく、大きなばらつきがある。スケジューラの影響で、故障率の高いキャビネットに負荷がかかっているのかも知れない。

XT5、XK6、XK7システムのキャビネットごとの故障率を示す。1つの四角がキャビネットに対応し、色の濃さが故障頻度を示す

安定期であっても、システムの信頼性には大きなばらつきがある。また、システムの故障状況を表すには、MTBFだけでなく空間的、あるいは時間的な故障特性を把握することが必要である。そして、空間的、時間的な故障の分布は、ほとんどの場合、利用されていないが、ジョブスケジューラ、システム管理者、システム調達者はこの分布を利用して信頼性を改善できる可能性がある。