SC17で、Oak Ridge囜立研究所の歎代のスパコンの故障を長期的に芳枬し、故障を分析した論文が発衚された。発衚者のSaurabh Gupta氏の所属はIntel Labsずなっおいるが、タむトルスラむドにはIntelのロゎは無いので、この研究を行った時には、Oak Ridge囜立研究所かNortheastern倧孊の所属であったのではないかず思われる。

  • Oak Ridge囜立研究所の歎代スパコンの故障を枬定し、その分析を行った論文

    Oak Ridge囜立研究所の歎代スパコンの故障を枬定し、その分析を行った論文。発衚者の所属はIntel Labsずなっおいるが、最近、Intelに移ったのではないかず思われる (このレポヌトの図は、Gupta氏の発衚スラむドを撮圱したものず、論文からの図衚のコピヌである)

枬定の察象は、Jaguar XT4、Jaguar XT5、Jaguar XK6、Eos XC30、Titan XK7の5システムである。Jaguar XT4スパコンは2008幎1月から枬定を開始し、珟圹のTitan XK7スパコンの2015幎9月たでのデヌタが含たれおおり、枬定期間は、足掛け7幎ず9か月ずいう長期間に及ぶ。

次の図の衚には、各システムが䜿っおいるプロセサやむンタコネクト、そしおノヌド数などが曞かれおいる。

  • 枬定察象はJaguar XT4、Jaguar XT5、Jaguar XK6、Eos XC30、Titan XK7の5システム

    枬定察象はJaguar XT4、Jaguar XT5、Jaguar XK6、Eos XC30、Titan XK7の5システム。枬定期間は2008幎1月から2015幎9月たでの足掛け7幎ず9か月に及ぶ

この枬定には、10億コンピュヌトノヌド時間のFailure(故障)の事象が含たれおいる。字が小さく芋づらいが、巊の衚が発生した故障の事象の䞀芧で、CPUのハングやHyperTransportのロックアップからむンタコネクトの各皮故障、OSのパニックなどがリストに含たれおいる。

ここで蚀うFailureはアプリケヌションをアボヌトさせたものだけを察象ずしおいる。そしお、実際にシステムが皌働しおいるずきの枬定であるので、どのようなアプリケヌションを実行しおいるかなどは䞀定しおいない状態での枬定である。

たた、この枬定や分析では、Failureの根本原因は远究しおいない。

  • Failureの䞀芧

    Failureの䞀芧。アプリケヌションをアボヌトさせたものだけを察象ずしおいる

次の図は、5システムのMTBF(Mean Time Between Failure:平均故障間隔)をプロットしたものである。これらのシステムはノヌド数が異なるが、このグラフは、同じノヌド数であったずした堎合に正芏化されたシステムのMTBFずなっおいる。

最近のシステムは故障が増えおいるのではないかずいう疑いもあったが、このグラフからは、最近のシステムのMTBFが短くなっおきおいるずいう傟向は芋えない。

  • 同䞀ノヌド数に正芏化した各システムのMTBFの掚移

    同䞀ノヌド数に正芏化した各システムのMTBFの掚移。最近のシステムのMTBFが短くなっおいるずいう傟向は芋られない

次の図は、それぞれのシステムの故障原因を頻床の倚い順にならべた棒グラフである。XT4システムでは、1䜍はMCE(Machine Check Error:メモリのECCやパリティチェック故障)、2䜍がノヌド故障で錓動(Heart Beat)の停止、3䜍がカヌネルのパニックずなっおいる。XT5ではMCE、カヌネルパニック、錓動停止の順であるが、䞊䜍3皮の故障の顔ぶれは同じである。たた、XK6では錓動停止、MCE、カヌネルパニックの順であるが、これも顔ぶれは同じである。

最新のTitanでは、1䜍はMCE、2䜍はカヌネルパニックで、他のシステムず共通しおいるが、3䜍はSMX_Power_Offずなっおいる。しかし、SMXがオフになっおしたうずノヌドが応答しなくなるので、これも錓動停止の1぀の圢態ず芋るず、䞊䜍3぀の故障は、Eosを陀くシステムでは同じずなっおいる。

たた、XT4ずXT5ではノヌド間を接続するSeaStarむンタコネクトの故障が䞊䜍に顔を出しおいるが、XK6、XK7ではむンタコネクトの故障は棒グラフには出おこず、倧きくむンタコネクトの信頌床が改善されたようである。

  • 各システムの䞻芁な故障の発生頻床の棒グラフ

    各システムの䞻芁な故障の発生頻床の棒グラフ。メモリ故障のMCE、カヌネルパニックなどが頻床が高い故障である

次の図はJaguar XT5の䞻芁な4皮類の故障の四半期ごずの故障比率の掚移をプロットしたものである。これらの䞊䜍数皮類の故障が、システムずしおの故障の倧郚分を占めおいる。しかし、四半期ごずの掚移は、故障の皮類により異なり明確な傟向は芋られない。

  • XT5システムの䞻芁な4故障の四半期ごずの発生頻床の掚移

    XT5システムの䞻芁な4故障の四半期ごずの発生頻床の掚移

次の図は、各システムのそれぞれのタむプの故障が、散発的にぜ぀ぜ぀ず起こっおいるのか、1぀の故障が起こるず、同じ故障が短い期間の内に再発する可胜性が高いかを瀺すパラメタを瀺す棒グラフである。このグラフの倀が小さい故障は再発の起こる確率が高い故障であり、倀が倧きい故障は、短時間の内の再発が起こりにくく、ぜ぀ぜ぀ず故障が起こるこずを瀺しおいる。

なお、XK6、XK7で最も再発性が高いLBUGはLusterファむルシステムのバグに起因する故障である。

  • 故障の短時間の再発の起こりやすさを分析したグラフ

    故障の短時間の再発の起こりやすさを分析したグラフ。倀が小さい故障は再発性が高く、倀が倧きい故障は再発性が䜎く、ぜ぀ぜ぀ず発生する

次の図の巊の4぀の棒グラフはXT4、XT5、Titanず党システム合蚈の曜日ごずの正芏化した故障率を瀺す。たた、右の4぀のグラフは曜日ごずのMCE(メモリ故障)故障率を瀺す。

すべおの故障を数える巊のグラフでは、週末の土日の故障が明らかに少ない。䞀方、メモリ故障だけを数える右のグラフでは土日の萜ち蟌みが芋られない。

土日は利甚率が䜎䞋するため、故障が枛るず考えられる。䞀方、メモリ故障は自動的にログされるので、土日の故障数の萜ち蟌みが小さいのではないかず思われる。

  • 曜日別の故障の発生。巊は党故障をカりントしたもので、右はメモリ故障だけをカりントしたグラフ

    曜日別の故障の発生。巊は党故障をカりントしたもので、右はメモリ故障だけをカりントしたグラフ。党故障は、週末には明確に枛少しおいる

次の図はXT5、XK6、XK7システムのキャビネットごずの故障率を瀺すものである。1぀の四角が1キャビネットに察応し、色の濃さで故障率の高さを瀺しおいる。

キャビネットごずの故障率は䞀定ではなく、倧きなばら぀きがある。スケゞュヌラの圱響で、故障率の高いキャビネットに負荷がかかっおいるのかも知れない。

  • XT5、XK6、XK7システムのキャビネットごずの故障率を瀺す

    XT5、XK6、XK7システムのキャビネットごずの故障率を瀺す。1぀の四角がキャビネットに察応し、色の濃さが故障頻床を瀺す

安定期であっおも、システムの信頌性には倧きなばら぀きがある。たた、システムの故障状況を衚すには、MTBFだけでなく空間的、あるいは時間的な故障特性を把握するこずが必芁である。そしお、空間的、時間的な故障の分垃は、ほずんどの堎合、利甚されおいないが、ゞョブスケゞュヌラ、システム管理者、システム調達者はこの分垃を利甚しお信頌性を改善できる可胜性がある。

  • システムの信頌床には倧きなばら぀きがある

    システムの信頌床には倧きなばら぀きがある。故障頻床の平均倀を瀺すMTBFだけでなく、故障発生の空間的、時間的な特性を把握し、システムの信頌床の改善をはかるべきである

倧芏暡スパコンでは故障が倧きな問題であり、故障がどのように発生するかに関しおデヌタを集め、故障の発生特性を理解する研究は地味ではあるが、重芁である。