マルチベンダー対応の「自動障害対応」サービスが登場

インフラ運用管理の現場は忙しくなる一方だ。システムを導入して安定稼働が始まれば一安心という時代は終わり、今は稼働してからの運用・保守が非常に重要だ。システムを止めないことはもちろん、突発的な障害が発生していないか、システム全体の性能が落ちていないかを常にモニタリングし、トラブル発生に備える必要がある。

CTCテクノロジー サービス営業推進部サービス営業推進第1課 渡邊智博氏

CTCテクノロジー サービス営業推進部サービス営業推進第1課 渡邊智博氏

システムの複雑化と高度化、それに対応する人材やスキル不足も、現場の負担を増やしている要因だ。システムの仮想化が進み、障害の切り分けがさらに困難になっただけでなく、原因を特定できないことも少なくない。その一方で、アプリ開発側からはユーザー体験を損なわないような性能保障が求められ、少人数で運用管理の現場を回していかなければならない。また、クラウドサービスの利用が増え、今までとは異なる管理スキルも求められるようになっている。

そもそもインフラ運用管理とは、障害対応の経験とノウハウがものをいう世界だ。障害発生箇所のアタリをつけ、ダンプファイルやログファイルを収集し、その内容を見て障害を素早く特定・対処していく必要がある。しかし、ハードウェア機器は多種多様で、ソフトウェアも仮想化によって内部が以前より見えにくくなっている。新米管理者にとっては、ログ情報の収集だけでも大きな負担を感じるはずだ。障害が発生しても“どの機器”の“どの環境”にログインすればいいかすらわからないことも多い。そんな状況下で生まれたのが、インフラの障害にリモートから自動で対処する自動インフラ障害対応サービス「Avail-Ⅰ」だ。

「システム担当者の負担を取り除いて、設計やアプリ開発などの本来の仕事に専念できる環境をつくれないか。それはわれわれにとっても、受け身の保守サービスではなく、プロアクティブな保守サービスを提供する機会になるはず。そんな思いで提供をはじめました」

そう話すのは、CTCテクノロジー サービス営業推進部サービス営業推進第1課 渡邊智博氏だ。Avail-Ⅰは、2016年4月のリリース後、既存の取引先を中心に人気を呼び、利用実績を急速に伸ばしている。

障害対応を難しくする複雑なシステム環境

インフラ障害に自動で対処するには、障害発生時のさまざまな課題を1つひとつ解いていく必要がある。Avail-Ⅰの魅力は、それらを自動化することにあるのだ。

インフラ障害対応でまず課題になるのは、障害機器のログ収集だ。サーバ内蔵HDDのように故障を示すランプ点灯を見て取り替えるだけならそれほど手間ではない。しかし、実際はさまざまなベンダーのサーバ、ネットワーク、ストレージなどが混在し、障害のログもWebサーバからアプリケーションサーバ、データベースサーバなど多岐にわたる。限られた時間でこれらから特定のログを見つけ出すのは至難の業だ。

また、ログを見つけてからはサポート窓口の問題がある。サーバやネットワーク機器ごとにサポート窓口が分かれていて、たらい回しされた経験のある担当者は少なくないはず。ソフトウェアも同様で、OSの問題なのかデータベースの問題なのかわからないまま「それは○○さんに聞いてくれ」と袖にされてしまう。機器ベンダーとデータセンターの保守要員が別々で、要領を得ないやりとりが続くこともある。

そして、無事にログを収集できたとしても、問題の切り分けや障害の原因特定ができないという課題に直面することが多い。自社で切り分けができず、ベンダーにそっくりログを送っても、どこに問題があるかわからない。パッチ適用の手順を教えてもらい対応しても再発が続いてしまう。むしろ、一度のやりとりで障害の原因が取り除かれることのほうがまれなのだ。

CTCテクノロジークラウドマネージメントサービス部Avail-Ⅰサポート課 北谷龍馬氏

CTCテクノロジークラウドマネージメントサービス部Avail-Ⅰサポート課 北谷龍馬氏

さらに、障害の原因が取り除かれてから課題になるのが、インシデント管理だ。いつどんな障害が起こったかを記録しておけば、次の障害発生時に原因を探る大きなヒントになる。しかし、社内すべての機器の障害情報を一元管理するのはかなりの手間だ。Excelなどに手作業で記録していたら、あふれかえるログ情報で管理は簡単に破綻する。

こうした課題を解決するべく開発されたAvail-Ⅰを、CTCテクノロジー クラウドマネージメントサービス部Avail-Ⅰサポート課の北谷龍馬氏は次のように説明する。

「CTCテクノロジーが持つ独自の運用保守のノウハウから生まれたAvail-Ⅰは、必要なログを自動で収集します。それを専門エンジニアが分析して、すぐに対応策を提示することが可能です。お客様が障害発生に気づくのはわれわれが送るアラートメールということも少なくありません。過去に起こったインシデント情報はWebポータル上で一元的に管理できます」

  • 過去に起こったインシデント情報はWebポータル上で一元的に管理
  • 過去に起こったインシデント情報はWebポータル上で一元的に管理
  • 過去に起こったインシデント情報はWebポータル上で一元的に管理

なぜインフラ障害にリモートから自動対応できるのか

特別なスキルとノウハウ、経験が求められる障害対応の世界で、なぜCTCテクノロジーは「自動化」を実現できるのか。渡邊氏は「長年のハードウェア保守やサポートサービスで培ってきた独自のノウハウがあり、それらをうまく組み合わせて実現しています」と話す。

同社は、CTCの技術本部を前身として、CTCグループによる製品販売後のメンテナンスを中心とする保守サービスの専門企業として1990年に設立された。サーバ、ネットワーク、ストレージなどの機器をベンダー/メーカーを問わず取り扱い、監視センターやコールセンター、保守拠点から24時間365日の体制でフルサポートを提供する。なかでも、顧客のシステムを熟知したアカウントエンジニアがチームを編成しシステムの運用を担う「システムマネジメントサービス(SMS)」は、同社の大きな強みとなっている。

「Avail-Ⅰでは、お客様サイトに自動ログ収集サーバを設置し、インフラ障害を検知すると直ちに自動で障害対応を開始します。CTCテクノロジーのデータ蓄積サーバが情報を受け取り、インシデント管理、障害機器の特定、保守エンジニアへの連絡を行います。障害対応は保守契約に準じますが、SMSなどの弊社のサービスと連携させながら、お客様にあったサポートを提供することもできます」(渡邊氏)

自動ログ収集は、機器モニタリングによる障害検知を行うだけでなく、障害が発生した場合にその機器やソフトウェアから出力されるダンプファイルやイベントログなどを必要に応じて取得する仕組みだ。例えば、vSphere環境のある仮想マシンホストで異常があればesxcliコマンドなどを使ってホスト内の情報を自動で収集し、CTCテクノロジーのサーバに自動で送信する。エンジニアは出力されたログや周辺環境の稼働状況などを見てシステム全体の分析を行い、必要に応じて対応策を顧客に知らせる。

「何か障害が発生した場合、そのイベントを検知したあと、ログを収集し、サポートに送信、分析して、特定するという流れが一般的です。障害を特定するまでには、数日から数週間ほどかかるのが一般的だと思います。しかし、これらのほとんどの処理を自動化しているAvail-Ⅰなら、イベントの内容によっては数分から数十分で対応を終わらせることができます。特に大きな問題のないエラーは報告のみにし、重大な障害の場合は緊急対応を行うといった柔軟な対応も可能です」(北谷氏)

  • インフラ運用管理の流れ

    インフラ運用管理の流れ