障害原因の特定すらできない! 悲鳴をあげる運用の現場

IoTやAIといった取り組みが進むなか、ITシステムはますます複雑になってきた。社内には管理しなければならない機器が増え、その分、障害も起こりやすくなってきた。特にやっかいなのは、障害が起こる原因の特定が難しくなってきていることだろう。

かつては何かトラブルが発生すれば、それがハードウェアの物理的な故障に起因するものなのか、ファームウェアの障害なのか、ミドルウェアやアプリケーションなのか、おおよその見当はついた。しかし最近は、導入する機器が増えたうえ、仮想化やクラウドの普及により、どこでどんな障害が起こっているかの切り分けが難しくなってきている。

そんななか悲鳴を上げているのが運用管理者だ。原因不明のトラブルに対応するだけでなく、障害が発生したときの経営や顧客への報告、復旧作業への対応などで日々困難な判断を迫られている。シーティーシー・テクノロジー(以下、CTCT)のクラウドマネージメントサービス部Avail-ProEプリセールス課の市川敦氏は、こうした運用管理における現場の実態について「これまでのIT管理のやり方が限界にきはじめています」と警鐘を鳴らす。

CTCTは、伊藤忠テクノソリューションズ(CTC)グループで、ITシステムの保守サポート、運用サービス、教育事業を提供する企業だ。1972年に創業し、全国に保守拠点を持つ。さらに、サポートする機器は契約台数約30万台に及び、年間約6万7,000件の障害対応を行うなど、トラブルシューティングのスペシャリストである。

CTCTの豊富な実績

「ITがあらゆる業務にかかわるようになり、担当者の扱う範囲が格段に広がりました。障害対応はスキルと経験が重要になりますが、それを身に着け、そして強化する時間の余裕が無いのも実情です。また担当者が扱う範囲が広がったことで、担当者個人では手に負えなくなってきたのです。そこで、障害時の情報をより正確に収集・蓄積する仕組みと、それを高度に分析する技術が必須になってきます。今後は、従来の運用現場のあり方を変えていく必要があります」(市川氏)

シーティーシー・テクノロジー クラウドマネージメントサービス部 Avail-ProEプリセールス課 市川敦氏

ポイントになるのは、「スキルと経験」、「障害対応の精度向上」をどうカバーしていくかだ。マルチベンダーのさまざまな製品単体において、設定から障害対応までを行うスキルをベースとして習得し、その上で、マルチベンダー機器で構成されたシステムを構築しながら経験を積んでいく必要がある。これはCTCTが従来から得意としてきた分野だ。さらに、複雑化したシステムで発生する障害をより正確に、より迅速に解決する為には、これまでにない新しい仕組みが新たに求められる。そこで同社は昨年10月、エンジニアのスキルと経験、そして障害に備え高度にIT化した仕組みを組み合わせた新サービスを開発した。それがマネージド型のトラブルシューティングサービス「Avail-ProE」だ。

究極のトラブルシューティングサービスとは

CTCTのサービスの大きな特徴が、マルチベンダーのサポート力だ。サポートするベンダーはIT大手からベンチャーまで数十を超え、サポート機種はサーバーからネットワーク機器、ストレージまで約100機種に及ぶ。マルチベンダー環境のシステム保守を一括で受託できる国内では稀有な存在なのだ。

もう1つの特徴が、そうしたマルチベンダーサポートを可能にする高度なエンジニアの存在だ。従業員約1,238名(2017年4月)のうち、80%に相当する約1,000名がエンジニアであり、保守障害切り分け、障害対応といった保守に特化した人材を体系立てて育成している。また、さまざまな障害対応現場を豊富に経験することで、さらに高度な障害対応力を身につけるという好循環を生み出している。

市川氏は、そうした同社の強みを生かした「究極のトラブルシューティングサービス」だとし、その理由を次のように説明する。

「Avail-ProEは、データ収集から原因究明までをマネージドでご提供するサービスです。ハードウェアだけではなく、ネットワークやアプリケーションなども含めたシステム全体を監視します。従来の運用監視や障害対応のレベルを超え、パフォーマンス低下の予兆までを読み取って、システムの安定稼働を支援していきます」(市川氏)

従来の運用監視や障害対応サービスは、何か障害が発生したときにアラートを送り、機器の交換などに応じるというものが一般的だ。しかし、今日のトラブル発生原因はハードウェアに起因するものだけではなく、ネットワークやアプリケーションのパフォーマンスまでを監視して、総合的に対処していく必要がある。

そこで、Avail-ProEでは、ハードウェア監視(HW監視)だけではなく、ネットワークパフォーマンス管理(NPM)、アプリケーションパフォーマンス管理(APM)までを含めて提供するようにした。さらに、モニタリングシステムに習熟したトップエンジニアによるサービスデリバリーといった専門チームによる体制も整備した。このように、Avail-ProEは、運用現場で求められる最高品質の「技術」と「経験」をCTCTが一気通貫に提供しようというサービスなのだ。

「高度にIT化されたモニタリング機能」と「高度なスキルと経験」

この技術と経験という2つの要素は、それぞれ「高度にIT化されたモニタリング機能」と「高度なスキルと経験」というサービスの特徴として表現されている。

従来の運用監視・障害対応のレベルを超えた究極のトラブルシューティングサービス

まず、「高度にIT化されたモニタリング機能」というのは、NPM、APM、HW監視の3つを統合したサービス環境として構築した新しい価値を提供することを指している。

また、サービスメニューとしてはNPM、HW監視を基本機能とし、オプション機能としてAPMを追加できる体系となっている。ITシステムの規模や環境に合わせアプリケーションのパフォーマンスモニタリングを組み合わせることができることが特徴だ。

ITとビジネスの一体化が進むなかで、NPMやAPMの重要性はここにきて広く訴えられるようになってきた。しかし、Avail-ProEのように、HW監視まで含めて3つのサービスを統合して提供するのは、これまで例がなかった。市川氏は、異なる3つのモニタリング機能を連携させる意味について、こう解説する。

「取得できるデータの質や項目、粒度はそれぞれ異なります。たとえば、APMから得られたデータをHW監視で得られたデータとクロスさせると、データを見るための角度やパターンは何十倍にも増えます。それにより、今まで見えなかった障害の原因が見えてきたり、障害の予兆を発見できたりするのです」(市川氏)

つまり、トラブルシュートの迅速化と効率化のみならず、ユーザー体験を向上させるために基幹システムとの連携を改善するといった、ビジネスに直結した取り組みまで行うことができるわけだ。

もう1つの「高度なスキルと経験」は、サービスを提供する專門チームの特性を表している。専門チームは、CTCTのエンジニア総人数約1,000名のうちのほんの数パーセントにあたるトップエンジニアを中心として構成される。豊富な実務経験と資格に裏付けられたスキルを持ったエンジニアだ。

もともと、CTCTでは、独自のエンジニア認定制度を運用して、エンジニアのスキルと能力を客観的に判定できるようにし、この仕組み自体を、エンジニア教育のサービスとして外販もしている。Avail-ProEにはそうしたCTCTならではの強みを生かしたサービスなのだ。

次回からは、この「高度にIT化されたモニタリング機能」と、「高度なスキルと経験」により踏み込んで説明していく。

[PR]提供:シーティーシー・テクノロジー