システムレベルの高信頼化

これまで述べてきたのは、ハードウェアのレベルで誤りを見つけて訂正する高信頼化技術であるが、ハードウェアレベルのエラー検出、訂正はハード故障に対しては有効であるが、ソフトウェアのバグによるシステムダウンやオペレータの操作ミスによるシステムダウンには対処できない。

このため、高信頼性を必要とするコンピュータシステムでは、ハード、ソフトを組み合わせてシステムレベルで高信頼を実現するという構成が多くみられる。

古くから高信頼を実現する構成として使われてきたのが、デュアルシステムである。デュアルシステムは、その名の通り、2台のコンピュータシステムを使い、両方のコンピュータにまったく同じ処理を行わせる。そして、適当な間隔で結果を照合する。両者の結果が一致しなければエラーであり、その場合は、故障と考えられる方のコンピュータを切り離して、正常と考えられるシステムで運用を続ける。

デュアルシステムは結果の照合を行うのでエラー検出能力は高いが、2台のコンピュータを必要とし、コストが高い。これを軽減しようという構成がデュプレックスシステムである。デュプレックスシステムも2台のコンピュータを使うが、2台でまったく同じ処理を行うのではなく、次のように簡便な方法を取る。

ホットスタンバイのデュプレックスシステムでは、主系のコンピュータと従系のコンピュータを持ち、原則として同じ処理を実行させる。そして、両方のコンピュータは定期的にダウンしていないことを示すハートビート(Heart Beat:心臓の鼓動)を相手方に送る。

主系のコンピュータで障害が発生し、ハートビートが聞こえなくなると、従系のコンピュータが処理を引き継ぎ、運用を続ける。ここで、主系のすべての処理を従系で行わせるのではなく、オンライン処理などのサービスを中断できない処理は両方で実行するが、バッチ処理などは従系では実行させないという使い方とすれば、空いた処理能力を別の処理に利用することができる。

一方、コールドスタンバイのデュプレックスシステムでは、通常は主系のコンピュータだけで運用を行い、従系は別の用途に使う。そして、主系がダウンすると従系を起動して、主系で行っていた処理を引き継がせる。この場合は、従系システムのデータベースの更新などが必要になり、従系が動き始めるまでに相当の時間(数時間~数十時間)が掛るので、コールドスタンバイはコストは少ないが、このような業務中断が許容される用途に限られる。

このようなデュアルシステムやデュプレックスシステムとしても、停電で両方のコンピュータが止まってしまうとお手上げである。このため、高信頼が必要なシステムではUPS(Uninterruptible Power Supply:無停電電源)を装備するということが行われる。UPSはバッテリを持ち、通常はACからシステムに給電するが、停電時にはインバータでバッテリからACを生成してシステムを動作させる。しかし、バッテリの容量には限界があり、一般に数分から数十分程度しか電力を供給することができない。

このため、UPSは短時間の停電を乗り切ったり、停電時には動作中のアプリケーションを正常に終了させてシステムを安全にシャットダウンさせるという点では有効であるが、長時間の停電には耐えられない。

長時間の停電という事態でもシステムを動作させる必要がある場合は、UPSに加えてディーゼル発電機を設置する。停電の最初の1分程度はUPSでAC電源を供給し、その間にディーゼル発電機を自動起動する。ディーゼル発電機は燃料がある限りは発電を続け、燃料タンクの容量にもよるが、1日以上動作できる。そして、タンク車で給油を続ければ、何日でもシステムの動作を続けられる。

また、都市ガスを使うガスタービン発電機という手もある。「京」スパコンセンターには5MWクラスのガスタービン発電機が設置されている。5MWでは「京」スパコン全体を動かすことは出来ないが、主要部分を動かすことは可能であると思われる。

しかし、数MWから数十MWの電力を消費する巨大データセンターでは、このすべての電力をまかなう発電機を持つことはコスト高であり、2カ所の変電所からAC電源の供給を受け、一方の変電所の系統が故障で止まっても他方からの給電で停電を避けるという方法もとられている。このような2系統給電は停電の確率を大きく減らすが、東日本大震災の時の福島原発のように、2系統とも故障し、また、津波で浸水してディーゼル発電機も動かないという事態もあり得ないことではない。

このような事態に対処する方法としては、地理的に離れた、例えば、東京と大阪にセンターを置き、デュアルやデュプレックス運用を行うというシステムがある。このようなシステム構成にすれば、一方のセンターが火災になったり、地震や津波などで広いエリアに被害が及んでも、他方のセンターで運用を継続できる。