富士通研究所は2月25日、クラウドシステムの障害予兆の検知から障害原因の絞り込み、さらに障害解決までの一連の処理を自動で実行する技術を開発したことを発表した。同技術は、富士通が22日に発表したインフラクラウドサービス「オンデマンド仮想システムサービス」や「LCM監視サービス」に組み込まれる予定だ。

富士通研究所 常務取締役 近間輝美氏

常務取締役を務める近間輝美氏は、「当社は未来を"ヒューマンセントリックなネットワーク社会"にすることを目指しており、その際、クラウドコンピューティングは重要なインフラとなる。現在のICTは企業など利用が限定されている。将来は、もっと人に寄り添ったところでICTが用いられる必要がある」と、説明した。

同社はクラウドを活用したヒューマンセントリックな社会について、クラウドコンピューティングによって、さまざまなデバイスから収集した情報を解析し、それを基に実世界に対して知やサービスを提供していくと考えている。

こうしたことを実現すべく、「クラウドアプリ開発・実行環境」、「大容量データ処理」、「監視・運用管理・自動化」、「インフラ構築・制御機能」といったテーマの下、クラウド技術が開発されている。今回発表された障害対処技術は、監視・運用管理・自動化に属する。

富士通研究所は、クラウドコンピューティングを未来の"ヒューマンセントリックなネットワーク社会"を実現するインフラと位置づけている

富士通研究所 フェロー クラウドコンピューティング研究センター長 坂下善隆氏

フェロー クラウドコンピューティング研究センター長を務める坂下善隆氏からは、障害対処技術の詳細の説明が行われた。

同氏は、「クラウドコンピューティングの特徴は大規模かつ複雑なシステムである点。これは、障害の影響が拡大しやすいことを意味する。また、大勢の人にサービスを提供するクラウドには安定性と経済性も必要。こうしたクラウド環境の障害は、障害発生を検知してから処理する既存の手法では対処しきれない。クラウド環境では、事前に障害を回避する対処方法が必要」と述べた。

「今回開発した技術は、"障害の予兆の検出"を行い、次に"検出された予兆を診断"し、"該当部分を特定して対処"して、"監視"するといったサイクルを自動化する。それぞれのステップを行うベンダーはいるが、すべてをつなげて実行できるのは当社だけ」

富士通研究所が考えるクラウド環境における障害対処の考え方

同研究所が開発したクラウド向け障害対処技術は、「システムメッセージの分析による障害の予知」と「メッセージが出力されない潜在障害の予知」の2つの技術から構成される。

前者の技術は、障害発生直前に出力されるメッセージに特定のパターンがあることに注目し、障害の予兆を検知するというもの。発生したメッセージと過去に発生した障害時のメッセージのパターンを比較することで、障害の予兆が発生しているかどうかを判断する。過去に発生したメッセージパターンはベイズ学習によって事例ごとに重みづけを行うことで、障害の予兆が発生しているかどうかを検知する。

この技術を同社で試行したところ、「製品のQ&A対応業務」において63%の業務を定型化でき、また、「障害対応窓口業務」において障害メッセージを受けてから担当者に連絡するまでの時間が従来の16分から1.5分に減ったという。

一方後者の技術は、ネットワーク上を流れる通信パケットを収集・分析し、ロス・再送・遅延時間など、通信パケットレベルでの微細な変化を分析することにより、設定ミスなどが原因で発見されずに潜んでいる障害を検出するというもの。「この技術はすでに存在するものだが、当社の技術は10Gbpsに対応している点が強み。というのも、一般的には1Gbpsにしか対応していないからだ」と同氏。

発表会では同技術のデモが行われ、障害が検出された端末が発見されると、その障害を解決するための対処が実行されるという流れが示された。

障害が発見されたマシンは赤く点滅し、そこをクリックすると対処方法が表示される

近間氏は、「今回発表した障害対処技術は、過去の障害やその対処履歴といった情報をデータベースに蓄積しており、情報が増えれば増えるほど障害対処の精度が上がる。これは資産でもあり、他社に対する差別化の要素と言える」と、同社の技術のアドバンテージを強調した。