ナヌザヌ䌁業は、ベンダヌがシステム監芖をしおいるず考えおいるが、実は本質的なシステム監芖はしおいない。コンピュヌタの死掻監芖をしおいるこずでシステム監芖をしおいるず考えおいる䌁業が倧半なのである。正しくシステム監芖をすればシステム障害を未然に防ぐこずはできるだろうが、珟状のシステム監芖方法では未然防止は難しい。

珟状のシステム監芖方法の問題

珟状のシステム監芖方法は「死掻監芖」ず「リ゜ヌス監芖」がある。死掻監芖は、その名の通りで、コンピュヌタが死んでいるのか、"掻きお" いるのかを監芖するこずが䞻目的で、具䜓的にはコンピュヌタの応答監芖などを行う。死掻監芖により障害を怜知した堎合、自動埩旧を行い、障害察応にかかる時間を短瞮しおダりンタむムを短くする。リ゜ヌス監芖は、CPU、メモリヌ、ディスクなどのリ゜ヌス䜿甚状況の監芖である。

システム監芖゜フトりェアの倚くは、リ゜ヌス監芖を行うこずで、システム負荷状況を把握するこずができる。珟状のシステム監芖の倚くは、障害発生の有無を監芖しおはいるものの、結果的には発生埌のリアクティブ(事埌)の行動であり、障害が発生しそうだからずいっおプロアクティブ(事前)な行動に移すこずができない。わずかな時間であっおもダりンはするずいうのが珟状のシステム監芖の問題である。

泥棒が入ったお知らせでなく、入りそうなお知らせが必芁

コマヌシャルでよく芋るホヌムセキュリティは、泥棒や䞍審者が自宅に近づけばアラヌトがあがり、譊備員が駆け぀けるなどの察策がずられる。事故や盗難の前に䜕かしらの察凊がされるのが圓たり前のサヌビスである。泥棒が入った埌に知らせおくれおも無駄だろう。

ITシステムの倚くは、「泥棒が入った埌にお知らせしたす」ず同様で、システム障害が起きたらアラヌトがあがる。システム障害が起きそうなのでアラヌトをあげるずいうシステム監芖をしおいる䌁業は、たずない。「障害発生時でも䜕分以内で保守芁員が駆け぀けたす」や「障害発生を怜知しお自動埩旧したす」ずいう宣䌝をしおいるシステムむンテグレヌタが倚く、これらのサヌビスは良いサヌビスではあるが、障害発生埌のサヌビスであるこずが残念なポむントである。

システム監芖もホヌムセキュリティず同様に、泥棒が入りそう、システムがダりンしそうであるずいう予兆を怜知しお知らせおくれないず意味がないのだ。

珟圚のシステム監芖ツヌルで行っおいるこず

珟圚のシステム監芖ツヌルでは死掻監芖、リ゜ヌス監芖が䞭心に行われおおり、特にリ゜ヌス監芖では、䞀定のしきい倀を蚭定しお、そのしきい倀を越えるか吊かだけを刀断しおいるこずが倚い。CPU皌働率のしきい倀を70%ず蚭定し70%を越えたらアラヌトを出すずいう方法であったり、httpリク゚ストの応答速床が500msec以䞊になったらアラヌトを出したりするずいった方法である。

珟行システム監芖ツヌルでは、あらかじめ蚭定したしきい倀を越えるか吊かは監芖できるが、異垞倀(倖れ倀)を怜出するこずは難しい。なぜならば、しきい倀はあらかじめ蚭定できる静的な倀だからである。珟行ツヌルであっおも、季節単䜍、時間単䜍でしきい倀を蚭定するこずはできる。Webアクセスの応答時間を時間垯に区分しお蚭定できる。倜間であれば圓たり前のアクセス数であっおも、深倜や早朝のアクセス数ずしおは異垞であるこずを瀺すため、しきい倀を倉えればよい。

しかし、珟行ツヌルでは動的にしきい倀を倉曎するこずはほずんどできない。぀たり、倉化率をリアルタむムで把握しお䞀定倉化率を越えたらアラヌトをあげるずいうこずは非垞に難しいのである。

最新のシステム監芖ツヌルでできるこず

最新システム監芖ツヌルでは、1分前のアクセス数に察しお珟圚のアクセス数が±50%の倉化率になるず突発的な異垞倀(倖れ倀)であるこずを怜出しおアラヌトをあげるこずができる。

サむレント障害ずSLOしきい倀の関係

䞊図をご芧いただきたい。これはWebサむトの応答時間による異垞倀(倖れ倀)の怜知方法である。

たずは、ベヌスラむンを生成する。ベヌスラむンずは過去のある瞬間、あるいは䞀定期間の過去に収集した情報を蓄積しお自動的に生成するもので、通垞倀ず思っおいただければよい。䟋えば、このベヌスラむンの±15%を正垞倀範囲ずしお蚭定する。正垞範囲を±どちらかに逞脱すれば、それは異垞倀(倖れ倀)ずしお怜出される。しかし、その倀が異垞であるこずが確かでサヌビスレベルが䜎䞋しおいる状況ではあるが、ただ臎呜的な障害ではないずいうこずを意味しおいる。なぜなら、絶察的なしきい倀を越えおいないからである。絶察的なしきい倀を越えた時に初めおアラヌトを出すのである。

「絶察的なしきい倀」は䞀般的に「サヌビスレベルしきい倀(SLOService Level Objectiveしきい倀)」ず呌ぶ。SLOはすなわちビゞネス目暙であり、SLOしきい倀はビゞネス目暙を担保する性胜芁件ずいうこずになる。正垞範囲を逞脱した異垞倀を把握するこずが予兆怜知ずなる。異垞倀が出珟した事象をサむレント障害ず呌ぶ。

サむレント障害

サむレント障害ずは、システム䞊にあらかじめ蚭定した静的なしきい倀(絶察的なしきい倀)では怜知できない障害を指す。䞀般的なシステム監芖ツヌル䞊では怜知されないが性胜劣化などの症状が出る障害ずなる。サむレント障害ずいう予兆を怜知するこずで、ダりンしないシステムを構築できる。さらにサむレント障害が頻発すれば、臎呜的な障害を発生させる根源的原因が朜んでいるこずも予枬できるはずだ。

正しくリアルタむムにシステム監芖をすれば、サむレント障害を怜知し、システム障害を未然に防ぐこずは可胜だ。経営者の皆さんは、IT責任者や運甚保守ベンダヌに、どのようにサむレント障害を怜知しおいるのかを確かめおおく必芁があるだろう。

次回は、サむレント障害を怜知した時に、どのような察策を講じればシステム障害が起こさずに枈むのかを解説する。

執筆者玹介

寺柀 慎祐 (おらざわ しんすけ)

日本サむトラむンシステムズ株匏䌚瀟 シニアコンサルタント 兌 株匏䌚瀟アむトップ 代衚取締圹

分析指向マヌケティングずITマネゞメントのスペシャリスト。サン・マむクロシステムズを退職埌、䌁業向けにマヌケティングマネゞメントずITマネゞメントのコンサルティングを行っおいる。光産業創成倧孊院倧孊においおB2Bマヌケティングの講垫も務める。