ThousandEyesは7月21日(米国時間)、「Azure Disruption, Meta App Issues, and Navigating Edge Cases」において、過去2週間のインターネット上の障害やトレンドを分析したレポートを公開した。最新の障害の要因などが紹介されている。

  • Azure Disruption、Meta App Issues、and Navigating Edge Cases

    Azure Disruption, Meta App Issues, and Navigating Edge Cases

過去2週間で発生した主な障害は次のとおり。

  • GitLabの障害:7月7日、GitLabのユーザーが約4時間の中断を経験した。GitLabサイト全体の障害の根本的な原因は、古いTerraformパイプラインの再起動だったとされている。変更リクエストの一部に古いTerraformプランが運用環境に適用されてしまったために起きた障害と報告されている
  • Microsoft Azureの障害:7月5日の午前7時22分(協定世界時)から午後4時までの8時間半に渡ってパケットロス、タイムアウト、遅延の増加を経験。表向きはオランダの悪天候による光ファイバーの切断が原因とされているが、数週間前に起きた別の事故からの復旧作業が続いていたため、すでに規定の利用率を超えて稼働していたことが主な原因ではないかと考えられている
  • Meta(WhatsApp, Facebook, Threads, Instagram)の障害:7月10日に広範囲でアクセス障害が発生した。Metaは公式な説明を発表していないが、この障害は米国北東部の悪天候がデータセンターに影響を与えたのではないかと考えられている

過去2週間の障害に関するデータも紹介されている。主なトレンドは次のとおり。

  • 世界的な障害件数は、6月26日から7月2日にかけて当初の148件から117件と21%減少したが、その後117件から192件へと64%増加した
  • 米国も同様に6月26日から7月2日にかけての障害件数は、当初の65件から61件と6%減少し、その後61件から96件へと57%増加した
  • 7月3日から7月16日までの全障害のうち、米国中心の障害が51%を占め、これは前回の期間である6月19日から7月2日の41%を上回った。2023年4月以降、米国を中心とした障害が全体の40%を占める傾向が続いており、割合が50%を超えたのは今年2回目となった

障害においてあらゆる停止のシナリオを計画することは不可能だが、問題が発生していることを認識するとともに根本原因を特定し、修復や修正を行うために可視性を確保することが重要とされている。可視性により問題を回避して影響を最小限に抑えるとともに、ビジネス継続性を確保するためにバックアップや代替プラットフォームに切り替える時間が生まれるという。