近年、デジタルサービスが企業の競争力を左右する重要な要素となる一方で、システムの複雑化・高度化が進み、サービス品質の維持は年々難しくなっています。前回までは、オブザーバビリティが「システムを理解し、問題の原因特定と改善を迅速に行うために欠かせない考え方」であることをお伝えしました。「いまさら聞けないオブザーバビリティ」の過去回はこちらを参照。

今回は、そのオブザーバビリティがどのようにSRE(Site Reliability Engineering:サイト信頼性エンジニアリング)と関係し、なぜ「100%の信頼性を目指すのは得策ではない」のかを解説します。

  • いまさら聞けないオブザーバビリティ 第3回

SREとは? - 「信頼性を最適化しながら変化スピードを落とさない」考え方

SREは、Googleが大規模サービスを運用する中で確立した手法で、文字通り「サイト(サービス)の信頼性をエンジニアリングする」というアプローチです。日本ではここ10年ほどで徐々に注目され、大企業からスタートアップまで、その考え方が広がりつつあります。

従来、運用チームは「障害を減らすこと」に専念し、開発チームは「新機能を出すスピード」を重視する構図がありました。SREの真髄は、両者の対立をいたずらに先鋭化させず、両立へと導く考え方にあります。

よく混同されがちなDevOpsには明確な定義こそありませんが、そちらは一般的には「文化やツール、プラクティスを通じて、開発と運用の壁を取り払う」ことをゴールとする手法とされています。

この記事は
Members+会員の方のみ御覧いただけます

ログイン/無料会員登録

会員サービスの詳細はこちら