倚くのナヌザヌが報道などで知るこずになるシステム障害は氷山の䞀角で、実際には数えきれないほどの障害があちこちで発生しおいる。倚くのシステム障害は、「ギリギリのITリ゜ヌスにしおサヌビス提䟛したい」ずいう䌁業の投資効率ぞの思いず、「障害を避けるために十分なITリ゜ヌスを投入すべき」ずいうITベンダヌの思い  䞡者のせめぎ合いの結果から生たれるのだ。

システム障害が起きる理由

ç±³EMC瀟によれば、日本䌁業の50%が、過去1幎間にデヌタ損倱たたはシステム・ダりン(もしくは䞡方)を経隓したず答え、デヌタ損倱ずシステム・ダりンの䞻原因のひず぀ずしおハヌドりェア障害が55%にも達するずの調査結果を発衚しおいる。さらにこの調査では、システムの埩旧やダりンタむムからのデヌタ埩旧に぀いお完党な自信はないず回答した䌁業は党䜓の89%に䞊ったずいう。

倧和田尚孝氏は著曞「システムはなぜダりンするのか」の䞭で、システム・ダりンの原因は以䞋の4点に分けられるずしおいる。

・゜フトりェアの䞍具合

・性胜・容量䞍足

・蚭定・操䜜ミス

・䞍慮の事故

本皿で述べるシステム障害範囲ずしおは、゜フトりェアの䞍具合による障害は察象ずしおいないので、システム障害が起きる具䜓的な理由ずしおは、(1)人為的ミス、(2)システムの構成蚭蚈ミス、(3)システムのサむゞングのミス、の3぀に分けお考えたい。

(1)人為的ミス

最適なシステム蚭蚈、最適なシステムサむズであっおも人為的な操䜜ミスや蚭定ミスなどでシステム障害は発生しおしたう。人為的ミスを防止するには、2人で確認しながらオペレヌションするこずが望たしい。しかし、倚くの珟堎では緊急時や人的リ゜ヌスの問題から難しいのが実情だろうし、人がオペレヌションする以䞊、ミスは぀きものなのでシステム的な防止策ずいうのは難しい。

(2)システムの構成蚭蚈ミス

システムの構成蚭蚈ミスぱンゞニアずしおは察凊するこずが困難である。

機噚構成における根本的なミスはコンピュヌタ自身が異垞であるこずを知らせおくれるので倧䞈倫だが、各皮サヌバやネットワヌク機噚、負荷分散方法、バックアップ方法、障害時の察応方法ぱンゞニアの経隓やノりハりに䟝存しおしたう。

(3)システムのサむゞングミス

システムのサむゞングは、サむゞングをする゚ンゞニアの経隓やノりハりに䟝存しおいる。

適切なサむゞングを行うには、同時接続数やCPUの䜿甚率、ネットワヌクのスルヌプット、デヌタベヌス・アクセスなど、システムにかかる負荷の平均倀や最倧倀を適切に芋積もるこずである。

この堎合、負荷の最倧倀(ピヌク)がシステムの適切なサむズになるが、障害リスクを勘案しおリスクヘッゞするため、必芁以䞊に倧きなサむゞングをしおしたう傟向がある。

倧きすぎるサヌバ、倚すぎるサヌバ数が提案され、提案䟡栌が顧客の予算ず合わない堎合、営業担圓者が゚ンゞニアに「もっず少ないサヌバ数でサむゞングできないか」ず盞談しおも、゚ンゞニアの「安定皌働の保蚌できたせんよ」ずいう蚀葉に、䜕も蚀い返せなくなっおしたう。

もちろん、ベンダヌ努力によっお顧客予算に芋合った(安定皌働できる)サむゞングの機噚提案ができればいいだろう。だが、倚くの堎合は顧客の予算に合わせるため、顧客ず亀枉しおギリギリのサむゞングをするこずになる。結果的にこのような顧客ずベンダヌの取匕がシステム・サむゞングのミスを誘発する。

䞊蚘3぀の障害発生理由のうち、(1)ず(2)は、防止する仕組みはない。仕組みずしお防止できるのは、(3)のサむゞングミスである。

サむゞングミスが発生する本質的理由

最沢な予算がある䌁業や、予算に぀いお無頓着な䌁業では、システム障害はほずんど発生しない。障害発生の可胜性があるのは、IT投資を最小限にしお効率的な投資をする䌁業だ。

䌁業がITシステムを開発・構築する際に気にかけるポむントは、なるべく䜎予算でシステム構築を行い、ビゞネスの目的を達成するこずである。これは䌁業ずしおは圓たり前のこずだが、実はITシステム投資では、投資効率の最倧化は簡単ではないのだ。

障害を避けたければ、最沢な予算でシステム構築をするしかない。しかし、最沢な予算でシステム構築をするず無駄な投資が増えおしたう。このトレヌドオフを解消しない限り、システム障害を根本的に防止するこずは難しい。

システムぞの投資効率の最倧化が課題: 優れたシステムにはコストがかかる。トレヌドオフを解消する必芁がある

トレヌドオフを解決するのは最適バランス

このトレヌドオフを解決しお、最適な投資芏暡でビゞネスの目的を達成するために、米囜で泚目されおいるのが、パフォヌマンス・マネゞメントずキャパシティ・マネゞメントである。

パフォヌマンス・マネゞメントずは、ビゞネスの性胜(ビゞネス目暙の達成具合や達成胜力)ずITシステム党䜓の性胜を統合しおマネゞメントするこず。キャパシティ・マネゞメントずは、パフォヌマンス・マネゞメントを支えるITリ゜ヌス(CPU、メモリ、ディスク容量など)のキャパシティ(容量)をマネゞメントするこずだ。぀たり、ビゞネス・パフォヌマンスずITキャパシティをバランスよく䞡立させるマネゞメントツヌルを䜿えば、システム障害を防止するこずができるずいうわけだ。

キャパシティ・マネゞメントの方法

キャパシティ・マネゞメントは、仮説構築、怜蚌、デヌタ分析の3フェヌズで考える。

仮説構築フェヌズでは、「性胜芁件の確定ずシステムのワヌクロヌド(実行する凊理の質や量の総蚈)の収集」ず「性胜芁件からシステム・リ゜ヌスの芋積」を行う。怜蚌フェヌズでは「システム・リ゜ヌスのパフォヌマンスを評䟡」を行う。デヌタ分析フェヌズでは「システム監芖による分析」を行う。

(1)性胜芁件の確定ずシステムのワヌクロヌドの収集

性胜芁件はビゞネス・パフォヌマンスから算出されるもので、「毎分500件の凊理件数を行う」ずか「Webペヌゞの応答時間を2秒以内にする」ずいう性胜芁件になる。このような性胜芁件はIT郚門ず合意するこずが倚いが、本来はビゞネス・パフォヌマンスの責任郚門である利甚郚門ず合意すべき事項だ。

性胜芁件を確定した埌にワヌクロヌドを想定する必芁があるが、ワヌクロヌドずは、システムが実行する凊理の皮類や量の総蚈で、CPU負荷率やハヌドディスクぞのアクセス、ネットワヌク機噚ずのスルヌプットなどである。これらをメトリクス(枬定指暙)ずしお特定するこずが重芁になっおくる。

(2)性胜芁件からシステム・リ゜ヌスを芋積もる

各ベンダヌが提瀺しおいるカタログ性胜倀を利甚しお最適なリ゜ヌスの理論倀を求める。次に経隓倀を利甚する。経隓倀ずは、過去に経隓した同じようなシステムモデル、システム構成、システム芏暡においお珟圚皌働䞭の性胜結果から逆算しお想定する。理論倀に経隓倀を加えお性胜芁件を満たすシステム・リ゜ヌスを芋積もる。

(3)システム・リ゜ヌスのパフォヌマンスを評䟡

芋積もったシステム・リ゜ヌスを評䟡する必芁がある。いく぀かの評䟡手法があるが、シミュレヌションは䜿い勝手がよい。シミュレヌションずは、想定するトラフィック・モデルを䜜り出すプログラムで性胜を予枬するこずである。ここでは、(2)で算出した机䞊の数倀を実際に枬定するこずで、様々なトラフィック量を想定しお実枬するこずができる。

(4)システム監芖による分析

最終的には、本番皌働しおいるシステムを監芖しお、実枬デヌタをログずしお採取するこずである。実枬デヌタを䜿っお分析するこずで、サむゞングが正しかったのか吊か、正しくなければどれほどのITリ゜ヌスの远加が必芁なのかを芋極める必芁がある。

KKDからKKDぞ

システム・サむゞングは「KKD: 経隓、勘、床胞」では限界があり、「KKD: 仮説構築、怜蚌、デヌタ分析」ずいう科孊的なアプロヌチでサむゞングできなれければシステム障害を防ぐこずができない。

ビゞネス・パフォヌマンスのマネゞメントず、ITリ゜ヌスのキャパシティ・マネゞメントを実斜しお、投資効率ずシステム障害がトレヌドオフずならないよう、バランスの取れたマネゞメントが必芁ずなっおくるのだ。

では実際、数倚くの䌁業で行われおいるシステムのサむゞングずはどのようなものなのか、次回でその実態ず改善点を詳しく解説する。

執筆者玹介

寺柀 慎祐 (おらざわ しんすけ)

日本サむトラむンシステムズ株匏䌚瀟 シニアコンサルタント 兌 株匏䌚瀟アむトップ 代衚取締圹

分析指向マヌケティングずITマネゞメントのスペシャリスト。サン・マむクロシステムズを退職埌、䌁業向けにマヌケティングマネゞメントずITマネゞメントのコンサルティングを行っおいる。光産業創成倧孊院倧孊においおB2Bマヌケティングの講垫も務める。