「究極のトラブルシューティング」の実態に迫る(2) NPM、APM、HW監視の三位一体での提供が生み出す価値

「高度にIT化されたモニタリング機能」とは

伊藤忠テクノソリューションズ(CTC)グループで、ITシステムの保守サポート、運用サービス、教育事業を展開するシーティーシー・テクノロジー(以下、CTCT)。同社は昨年10月、マネージド型のトラブルシューティングサービス「Avail-ProE」の提供を開始した。

Avail-ProEは、1972年からインフラを中心とした保守サポートを提供してきたCTCTの技術と経験を生かしたサービスであり、これまでの運用の在り方を変革することを目指して開発されたものであることを前回紹介した。

実際、IoTに代表されるデジタルビジネスに向けた取り組みが加速するなか、これまでの運用の在り方は大きく見直され始めている。背景にあるのは、システム障害への対応がかつてないほど困難になってきたことだ。同社クラウドマネージメントサービス部　Ａｖａｉｌ－ＰｒｏＥプリセールス課の金城竜一氏は、いま現場で起こっている事態をこう解説する。

シーティーシー・テクノロジークラウドマネージメントサービス部　Ａｖａｉｌ－ＰｒｏＥプリセールス課金城竜一氏

「システム基盤の仮想化やクラウド化、ハイブリッド化が進み、従来のようなサーバー、ネットワーク、ストレージ機器をそれぞれ管理していくような手法が通用しにくくなりました。ITインフラが複雑になり過ぎて、障害が起こった場合、原因がどこにあるのかが特定できず、ときには障害がいつ起こったかすら把握できないことまであるのです」

さらに金城氏は、デジタルビジネスを進めるうえで顧客のエンドユーザーエクスペリエンス(EUE/ユーザーが体感するレスポンス時間)を担保することが重要になってきたとし、次のように話す。

「EUEが損なわれると、ビジネスそのものが立ち行かなくなることもあります。EUEは、アプリケーション側の改善だけでは十分に担保できません。最近のアプリケーションは、顧客の行動履歴や購買履歴などのデータを取得するために基幹システムと連携します。そのため、フロントからバックエンドまでのトランザクションを一貫して把握し分析していくことが重要なのです」

システム異常の迅速な特定とEUEの担保。Avail-ProEは、こうした課題に対応していくために、大きく2つの特徴を有している。1つは、ハードウェア監視(HW監視)だけではなく、ネットワークパフォーマンス管理(NPM)、アプリケーションパフォーマンス管理(APM)を1つのサービスに包含させたことだ。この3分野をマネージドで提供するサービスは業界初であり、類似サービスも存在しない。

高度にIT化されたモニタリング機能

もう1つの特徴は、マネージドサービスを支える高度なスキルと経験だ。3分野に精通するエンジニアが専任で担当する体制を敷く。ここには、エンジニアの教育サービスも提供するCTCTの強みが生かされている。

今回は、この2つの特徴のうち、NPM、APM、HW監視の3分野からなる「高度にIT化されたモニタリング機能」の詳細を見ていこう。

Avail-ProEはNPM、HW監視を基本機能とし、オプション機能としてAPMを追加できるメニュー体系となっている。ITシステムの規模や環境に合わせアプリケーションのパフォーマンスモニタリングを組み合わせることができることが特徴だ。

ネットワークの全トラフィックを70以上の測定項目で可視化するNPM

NPMは、ネットワークのトラフィックを監視し、パフォーマンスを可視化、管理するための仕組みだ。しかし、通常はネットワークを流れるデータは膨大で管理が難しい。そのため、ネットワークを流れるトラフィックから一部をサンプリング収集して、分析するという方法が取られるのが一般的だ。

これに対し、Avail-ProEでのNPMは、パフォーマンス管理に必要となる経路上のトラフィックをフルパケットキャプチャですべて取得する。たとえば、ユーザーからWebサーバーへのアクセス経路、WebサーバーからAPサーバーへのアクセス経路、APサーバーからDBサーバーへのアクセス経路を通るすべてのパケットを収集し、専用アプライアンス機器に保存する。

この理由について金城氏は「大量のデータを収集し分析することで障害などの根本原因を究明します。限られたデータを分析するだけでは見えないものも見えてくるのです」と説明する。

専用アプライアンス機器にはパケットデータを蓄積する機能があり、それを70以上の評価項目を使って、パフォーマンスをリアルタイムに可視化していくという。評価項目としては「TCPセッションを確立している時間」「サーバー内で処理している時間」などがある。これら各評価項目に対して閾値(しきいち)を設定し、レスポンス遅延などの兆候を把握することになる。

「たとえば障害検知では、静的閾値と動的閾値を設定します。静的閾値では何らかのイベントが1回でも起こることを把握し、動的閾値は実データからベースラインを策定し特定条件下において連続でイベントが起こるようなケースを把握します。両面からモニタリングすることで、障害の予兆をすばやく検知できるようになるのです」(金城氏)

フルパケットキャプチャですべてのトラフィックを追跡

ユーザー体感を可視化しアプリケーションの改善を支援するAPM

APMは、アプリケーションが正しく快適に動いているかどうかを監視する仕組みだ。ECサイトなどでは、アプリケーションの動きが遅かったり、操作に反応しなかったりすることは、ビジネスそのものに直結する問題だ。EUEの改善にもかかせない仕組みとなる。

アプリケーションのパフォーマンスは、APサーバーにインストールしたエージェントから収集したデータを分析して管理する。エージェントが収集するデータとしては「アプリケーションの実行日時、処理時間、応答時間」「プロセスを実行したユーザー情報」「リクエストしたURLとHTTP応答コード」などがあり、ユーザーがアクセスした際に、どのような処理が行われたかまで細かく把握できる。金城氏によると「APサーバーからどんなClass/Methodが呼び出されたか、そして、どんなSQLがデータベースに発行されたかなども把握できます。これらはAPM専用の分析サーバー内に保存され、NPMの収集データと同様に分析に用いられます」という。

APMの評価項目としては「ページが表示するまでにかかった時間」「ページがブラウザで表示された回数」「プロセッサ待ち行列にあるスレッド数」「システムコードが使用する物理メモリのサイズ」などがある。

そのうえで、金城氏は「ユーザー体験をはかるうえでは、Apdexスコアという評価項目が活用できます。Apdexスコアは、アプリケーションの応答時間やサービスの応答時間をもとにユーザー満足度を測定したものです。基準があることで、改善の取り組みが行いやすくなります」と、APMの導入メリットを説明する。

30以上の評価項目でアプリケーションの動きを把握・可視化

障害をリアルタイムで検知し、ログを自動で転送するHW監視

一般に、サーバーやネットワーク、ストレージなどの機器に障害が発生した場合は、サポート会社に電話などで連絡し、障害ログの取得方法などを教えてもらってから、ログを送付し、障害対応にあたるといった流れになる。そのため、障害発生から対応完了までに時間がかかるケースが多い。

Avail-ProEのHW監視は、ハードウェア機器の障害をリアルタイムで検知し、障害ログを自動でCTCTに転送して、対応時間を大幅に削減、短縮化している。ハードウェア障害が発生してから、CTCTによるインシデント管理、障害機器特定、障害部位特定、修理・交換までのサービスをシームレスに受けることができるのだ。

金城氏は「保守サポートは、CTCTの強みの1つです。全国に保守拠点があり、全国のカスタマーサポートエンジニアがすぐに駆けつけられる体制です。CTCTが保守契約を締結している機器台数は約30万台に及び、年間約6万7,000件の障害対応を行っています。この経験から得られた知見をもとに、独自開発した機能が使用されています」と解説する。

このHW監視をNPMやAPMと組み合わせることで、アプリケーションのパフォーマンス監視からハードウェア障害への対応までをワンストップで受けられるようになるわけだ。

ハードウェア障害もリアルタイムで障害を検知・自動ログ収集

NPM、APM、HW監視が三位一体となるAvail-ProEは、ITインフラで生じるボトルネックの迅速な特定やEUEの担保・改善を実現することによって、顧客のデジタルビジネスを支えるマネージドサービスなのだ。では、こうしたサービスはどのような人材で支えられているのか。次回は、Avail-ProEのもう1つの特徴である「高度なスキルと経験」の詳細を見ていくことにする。

[PR]提供：シーティーシー・テクノロジー