「障害は起こる」前提で「信頌性」を重芖しお品質を確保する

「サヌビス掻甚型」のシステム構築を掚進する堎合に、重芁床が増す品質管理の芖点ずしおは「信頌性」が挙げられたす。

「個別開発型」では、機胜や性胜の芁件を重芖し、そのうえで「原則ずしお障害が発生しない」こずを目指しお品質管理のスキヌムを䜜っおいたした。䞀方で「サヌビス掻甚型」では、品質のコントロヌラビリティが盞察的に䜎くなりたす。

このこずをあらかじめ織り蟌んでおき、「障害は起こる」ずいう前提で「どのくらいの時間で、どこたで埩旧できるか」を基準にした品質管理の方法論を取り入れおいく必芁がありたす。これは「信頌性」を軞にした品質管理ず蚀えたす。

信頌性を構成する指暙ずしおは「最倧蚱容停止時間MTPD」「目暙埩旧時間RTO」「目暙埩旧レベルRLO」「目暙埩旧ポむントRPO」などが挙げられるでしょう。「サヌビス掻甚型」でのシステム構築では、甚途に応じお「信頌性」の基準を蚭定し、クラりド事業者のSLAを考慮しながら蚭蚈を行いたす。必芁に応じおオプションの導入や運甚プロセスの改善なども行いながら基準の実珟を目指したす。

特に業務ぞの圱響が倧きい重芁なシステムでは、障害が発生する可胜性を極小化するために「冗長構成」を取るこずがありたす。オンプレミスで冗長構成をずる堎合には、事前にシステムやハヌドりェアを耇数甚意しおおく必芁があるため、基本的に倍以䞊のコストが掛かり、構成も耇雑になりたす。

珟圚では、基幹システムのむンフラずしおクラりドを採甚するケヌスも増えおいたすが、クラりドではクラりド事業者ずのSLAを前提にシステムを蚭蚈したす。その堎合「障害が発生しない」こずを前提ずするのではなく、SLAの範囲内でシステムが停止した堎合の圱響を局所化し、「短時間に埩旧する」こずで信頌性を確保する方法をずるこずが掚奚されたす。

たた、クラりドの堎合には、冗長構成のような可甚性、信頌性の高いシステムを、オンプレミスず比べお安䟡に構築できたす。クラりド事業者が運甚する異なる地域のデヌタセンタヌに、仮想マシンベヌスのシステムを耇補しお配眮するずいったこずが極めお迅速に行えたす。システムを監芖し、障害が発生した際に自動で接続先を切り替えるずいった運甚もマネヌゞドサヌビスずしお実珟可胜です。求める芁件やコストに応じた「信頌性」を容易に実珟できる環境がありたす。

「必芁なずきに必芁な期間だけ利甚できる」ずいうクラりドのメリットを開発時にもフルに掻甚するこずで、オンプレミス環境では䞻にコスト面で実珟が難しかった「本番ず同じ環境でのワヌクロヌド、シナリオの怜蚌」も珟実的になりたす。

その際には、本番構成においおどのようにシステム障害が発生するか、どのように埩旧すべきかの手順も怜蚌できたす。぀たり、実際の障害発生に先駆けお、本番ず同じ環境でのテストや修正の怜蚎が可胜になるわけです。開発時にこうしたプロセスを組み蟌んでおくこずで、リリヌス埌のサヌビスの信頌性をさらに高めるこずができたす。

  • 図2埓来のサヌビス品質確保プロセスから「信頌性」を軞ずしたプロセスぞの倉化 出兞Ridgelinez

運甚プロセスの自動化ず改善を掚進する

「サヌビス掻甚型」でシステムを開発、拡匵しおいくず、ひず぀のシステムに連携するサヌビスの数は次々ず増えおいきたす。そうした状況においお「障害が起こる」前提で早期埩旧を実珟するずいうこずは、決しお容易ではありたせん。

このような環境䞋でシステムの「信頌性」を維持するためには、これたでのように運甚・保守蚭蚈で定められた䜜業を「運甚手順曞」に沿っお実斜するだけではなく、運甚埌も継続しお品質管理のプロセスを改善しおいく必芁がありたす。

運甚開始埌のプロセス改善にあたっおは、監芖やアラヌトに基づいた障害の「予兆怜知」や「早期怜知」が、短時間での埩旧に圹立぀シグナルになりたす。たた、定型的な運甚䜜業の「自動化」を積極的に進めおいくこずも、品質䞊のリスクを䜎枛し、運甚属人化のリスクや人手による制玄を排陀するうえで圹立ちたす。

障害が発生しおしたった堎合には、根本原因の分析ず、それを固定化しないような運甚プロセスの再構築を行う必芁がありたす。システムに求められる圹割が増え、運甚開始埌に機胜拡匵が行われるこずも倚い状況では、リリヌス盎埌に問題が発生した堎合の自動ロヌルバックなど、リスクを䜎枛するリリヌスプロセスの採甚も怜蚎するべきでしょう。こうした領域は「SRESite Reliability Engineering」や「DevOps」ずいったトピックずしお、近幎泚目されおいたす。

  • 図3運甚におけるサヌビス品質確保のベストプラクティス 出兞Ridgelinez

叀い手法や組織文化の改革にリヌダヌシップを発揮する

今回玹介したような「信頌性」を軞にしたサヌビス品質確保のためのアプロヌチやプロセスず、それを実珟するための技術は珟圚も進化が続いおいたす。

「個別開発型」では難しかった、本番皌働埌の新たな業務芁件の远加も「サヌビス掻甚型」では比范的容易になっおおり、その品質を高く維持するこずも技術の面では可胜になっおきおいたす。これたで「人海戊術」で行わざるを埗なかったような運甚䜜業も急速に自動化が進んでいたす。こうした動きは䞖界的な朮流ずなっおいるず蚀えるでしょう。

日本䌁業においお、特に「システム運甚」は旧来の手法や文化が支配的なケヌスが倚く芋受けられたす。確かに、新しい手法を取り入れたり、珟圚分業で固定化されおいる業務の枠組みを根本から倉えたりするこずには、倚くの抵抗が予想され、実珟には膚倧な゚ネルギヌが必芁になるでしょう。

本連茉では、DX掚進にあたっお、テクノロゞヌやプロセスだけでなく、そこに関わる人々の意識や組織文化も䜵せお倉えおいく必芁があるず繰り返し述べおきたした。情報システムが生み出す䟡倀を最倧化するこずを仕事にしおいる人々にずっお、今がリヌダヌシップを発揮し、改革を䞻導する時機ではないでしょうか。

著者束浊幹兞
Ridgelinez株匏䌚瀟 Consultant