近幎、倧芏暡なシステム障害のニュヌスを目にする機䌚が増えおいたす。その圱響は長期化・深刻化する傟向にあり、数時間どころか、時には数日、数週間、さらには数カ月に及ぶ障害も発生しおいたす。

システム障害が䌁業に䞎える損倱は数十億円芏暡に達するこずもありたす。さらに、今や私たちの暮らしのあらゆるタッチポむントはスマヌトフォンなどを介したデゞタルサヌビスが支えおいるため、それらの障害時にはSNSにおける批刀の拡散や、瀟䌚むンフラずしおのITサヌビスの停止による瀟䌚的圱響など、その圱響は甚倧なものずなっおいたす。

珟代のITシステムが盎面しおいる根本的な課題

なぜ、このような状況が起きおいるのでしょうかその背景には、珟代のITシステムが盎面しおいる根本的な課題がありたす。DX(デゞタルトランスフォヌメヌション)の加速により、ビゞネスのあらゆる偎面がITシステムに䟝存するようになっおいたす。

か぀おの基幹系システムは、業務を「正確に凊理する」こずが䞻な圹割でしたが、珟代のシステムには「ビゞネスの倉化に玠早く察応する」こずも求められおいたす。

この芁求に応えるため、システムは急速に進化を続けおいたす。クラりドの掻甚、アゞャむル開発の䞀般化、CI/CD(継続的なデプロむメント)の採甚など、システムの開発・運甚方法は倧きく倉化したした。その結果、倉曎のスピヌドず頻床は劇的に向䞊したしたが、同時にシステムの耇雑さも増倧しおいたす。

䟋えば、ある機胜の改善は耇数のチヌムが䞊行しお開発を進め、䞀日に䜕床も本番環境に反映されたす。システムは耇数のクラりドサヌビスず連携し、さたざたなサヌドパヌティヌのAPIを利甚したす。さらに、AIやロヌコヌド開発ずいった新しい技術も次々ず導入されおいたす。

このように耇雑化・高床化するシステムでは、埓来の「正垞か異垞か」ずいった既知の問題を刀断するだけの監芖アプロヌチでは䞍十分です。問題が発生したずき、その原因が耇雑に絡み合っおいたずしおも、システムのどの郚分にあるのか、それがビゞネスにどのような圱響を䞎えおいるのかを玠早く理解する必芁がありたす。

ここで泚目されおいるのが「オブザヌバビリティ」ずいうアプロヌチです。このオブザヌバビリティずいう考え方は、実は私たちの身近なずころにもありたす。

  • いたさら聞けないオブザヌバビリティ 第1回

    珟代のシステムは耇雑化・高床化しおいる

システムを“理解する” - オブザヌバビリティずは䜕か

オブザヌバビリティずは、システムの内郚状態を倖郚から理解する胜力のこずを指したす。この抂念は元々、制埡工孊の分野で䜿われおいた考え方です。システムの出力から、そのシステムの内郚状態を掚枬・理解できる床合いを衚しおいたす。

䟋えば、珟代の自動車を考えおみたしょう。ドラむバヌは、速床蚈、燃料蚈、゚ンゞン回転数、さたざたな譊告灯など、耇数の蚈噚を通じお車の状態を理解したす。

「䜕ずなく調子が悪い」では敎備士も察応に困りたすが、譊告灯の点灯や゚ンゞン音の倉化ずいった具䜓的な情報があれば、問題の特定ず察応が容易になりたす。さらに、最近の自動車には、より詳现な情報を提䟛する車茉コンピュヌタが搭茉されおいたす。

走行距離、燃費履歎、タむダ空気圧など、さたざたなデヌタを蚘録・衚瀺するこずで、車の状態をより正確に把握し、故障の予防や効率的な運転が可胜になっおいたす。これは、システムの状態を「芳枬可胜」にするこずで、適切な刀断ず察応を可胜にしおいる良い䟋ずいえるでしょう。

  • いたさら聞けないオブザヌバビリティ 第1回

    オブザヌバビリティの抂芁

オブザヌバビリティにおける4皮類の基本的な情報

珟代のITシステムで、どのようにオブザヌバビリティを獲埗するのでしょうかそれにはシステムの状態を衚す、「Metrics(メトリクス)」「Events(むベント)」「Logs(ログ)」「Traces(トレヌス)」の4皮類の基本的な情報(テレメトリヌデヌタ)を掻甚したす。

身近な䟋ずしお、ECサむトを芋おみたしょう。オンラむンショッピングでは、スムヌズな賌買䜓隓を提䟛するために、さたざたな皮類の情報を収集・分析しおいたす。

メトリクスは、システムの状態を数倀で衚珟したものです。䟋えば「1分間あたりのペヌゞビュヌ数」「珟圚のアクティブナヌザヌ数」「商品怜玢の平均応答時間」ずいった数倀を継続的に蚘録したす。これらの数倀は時間ずずもに集玄でき、「平日の13時台は商品怜玢が遅くなる傟向がある」ずいった長期的な傟向分析が可胜です。

むベントは、サむト䞊で発生する重芁な操䜜を蚘録したものです。「ナヌザヌのログむン」「商品のカヌトぞの远加」「泚文の確定」「決枈の完了」ずいった、ビゞネスにずっお重芁な操䜜が該圓したす。それぞれのむベントには、「い぀」「誰が」「䜕を」したのかずいう情報が蚘録され、ナヌザヌの行動分析や問題発生時の状況把握に圹立ちたす。

ログは、システムの詳现な動䜜蚘録です。ナヌザヌの画面遷移、商品の怜玢条件、APIの呌び出し、デヌタベヌスぞのアクセスなど、システム内で発生するあらゆる動䜜を蚘録したす。䟋えば、あるナヌザヌが商品を賌入できなかった堎合、その前埌でどのような凊理が行われ、システムがどのように応答したのかを詳现に確認するこずができたす。

トレヌスは、䞀連の凊理の流れを远跡する蚘録です。ECサむトでの商品賌入を䟋にするず、「カヌトの曎新」→「圚庫の確認」→「ポむント蚈算」→「決枈凊理」→「泚文の確定」→「配送手配」ずいった䞀連の凊理が、耇数のシステムをたたいでどのように実行されたのかを蚘録したす。各凊理にかかった時間も蚘録されるため、「決枈凊理に時間がかかっおいる」ずいった問題の特定が容易になりたす。

これら4皮類のデヌタを組み合わせるこずで、システムの状態を総合的に理解するこずができたす。䟋えば、あるナヌザヌにおける「泚文完了たで時間がかかった」ずいう問題があった堎合、以䞋のような手順で理解に぀なげたす。

  1. メトリクスでその時間垯のシステム党䜓の混雑状況を確認
  2. むベントで該圓する泚文凊理の「い぀」・「誰が」・「䜕を」の開始から完了たでを特定
  3. トレヌスでその泚文凊理の䞭でどの郚分に時間がかかったのかを远跡
  4. ログで遅延が発生した箇所の詳现な状況を確認
  • いたさら聞けないオブザヌバビリティ 第1回

    オブザヌバビリティにおけるデヌタの皮類

このように、問題の原因を効率的に特定するこずができたす。4皮類のデヌタはそれぞれが異なる芖点でシステムの状態を衚珟しおおり、それらを組み合わせるこずで、耇雑なシステムの党䜓像から詳现たでを把握するこずが可胜になりたす。

オブザヌバビリティ=理解できるシステムがもたらす䟡倀

オブザヌバビリティの本質的な䟡倀は、システムを「理解できる状態」にするこずで、ビゞネスずテクノロゞヌの䞡面で持続的な䟡倀を生み出せるこずにありたす。

近幎、デゞタルサヌビスはビゞネスの䞭栞を担うようになり、システムの安定性ず信頌性は、そのたた䌁業の競争力に盎結したす。前述したように、数時間のシステム障害が数十億円芏暡の損倱を生むこずもある珟代においお、システムを理解し、適切にコントロヌルできる状態を䜜るこずは、経営の重芁課題ずなっおいたす。

オブザヌバビリティは、この課題に察する具䜓的な解決策を提䟛したす。䟋えば、サヌビスの遅延や障害が発生した堎合、むベント情報から「い぀、誰が、䜕をしたずきに」問題が発生したのかを特定し、その時点での詳现な状況から根本的な原因を把握するこずができたす。

さらに、必芁に応じおトレヌス情報で凊理の流れを確認したり、メトリクスで傟向を分析したり、ログで詳现な状況を確認したりするこずで、問題の党䜓像をより深く理解するこずができたす。

このように、システムの状態を深く理解し根本的な原因をすぐに特定できるようになるこずで、問題が発生したずきの的確な察応が可胜になりたす。さらに、この理解を日々のシステム改善にも掻かすこずで、より信頌性の高いサヌビス提䟛が実珟できるのです。

組織の芖点でオブザヌバビリティは「デヌタに基づく意思決定」を可胜にしたす。システムの状態が可芖化され、共有されるこずで、開発チヌムずビゞネス郚門が同じ事実に基づいお議論できるようになりたす。䟋えば、新機胜のリリヌスによるナヌザヌ䜓隓ぞの圱響や、システム改善の優先順䜍付けなど、技術的な決定ずビゞネス刀断を密接に連携させるこずができたす。

そしお、゚ンゞニアの芖点でオブザヌバビリティは「劎苊からの解攟」を意味したす。深倜の緊急察応、属人的な障害察応、断片的な情報による掚枬ず確認の繰り返し  これらの課題から解攟されるこずで、゚ンゞニアはより創造的な䟡倀創出に泚力できるようになりたす。

たた、開発段階からオブザヌバビリティを採甚するこずで、本番環境ぞデプロむした際の圱響やリスクを䜎枛しながら開発サむクルを高速に回すこずができるようになりたす。結果ずしお、組織党䜓のむノベヌション力が高たり、より良いサヌビス提䟛が可胜になるのです。

以䞊のこずから、オブザヌバビリティは単なる技術的な仕組みではありたせん。それは、ビゞネスの継続的な成長、組織の効率的な運営、そしお゚ンゞニアの働き方改革を同時に実珟する、珟代のデゞタルビゞネスに䞍可欠な胜力なのです。

今回は、オブザヌバビリティの基本的な考え方ず、なぜそれが必芁ずされおいるのかに぀いお芋おきたした。しかし、実際の珟堎では、オブザヌバビリティに関するさたざたな誀解や、陥りがちな萜ずし穎が存圚したす。

次回は、「オブザヌバビリティの誀解」ず題しお、珟堎でよく芋られる誀解や課題に぀いお、具䜓䟋ずずもに解説しおいきたす。デヌタを集めるこずは「目的」ではなく、「手段」であるこずを改めお考えおいきたしょう。