ThousandEyesは2月16日(米国時間)、「Square Outage, Data Center Issues, & Planning for Resiliency」において、過去2週間(1月29日から2月11日まで)にインターネット全体で発生した障害と傾向の分析レポートを公開した。レポート全文は「(動画)Square Outage, Data Center Issues & Planning for Resiliency - YouTube」から視聴することができる。

  • Square Outage、Data Center Issues、& Planning for Resiliency

    Square Outage, Data Center Issues, & Planning for Resiliency

インターネット障害と傾向

ThousandEyesはこの2週間に発生したインターネット上の障害として、以下を取り上げ、その概要を解説している。

金融サービスプラットフォームの「Square」停止

「Square」は2月6日(米国時間)、加盟店の2段階認証を含む複数のサービスに障害が発生した。Squareの決済サービスの利用者は必ずしもこの障害に遭ったわけではないが、サービスを使用する加盟店は支払履歴が利用できないという問題に遭遇。支払いが行われたのかを不安視する加盟店や、送金の失敗、支払いの受領失敗など直接影響を受ける加盟店が発生した。同件の原因は公開されていない。

Squareは緊急の回避策として、ショートメッセージサービス(SMS: Short Message Service)による二要素認証(2FA: Two-Factor Authentication)を使用するユーザーに対し、ショートメッセージサービス以外の認証方式を使用してログインするようにアナウンス。インシデント発生から4時間後に復旧を開始、その数時間後に完全復旧したとされる

ロシアの「.ru」ドメインが停止

2024年1月31日(現地時間)、ロシアの「.ru」ドメインが停止した。これはDNSのセキュリティ拡張「DNSSEC(Domain Name System Security Extensions)」のゾーン署名が間違っていたことが原因とされる。この障害により一部のインターネットユーザーはオンラインサービスへのアクセスができなくなった。

イリノイ州シカゴの小児病院にランサムウェア攻撃

  • 1月31日(米国時間)ごろ、イリノイ州シカゴの小児病院がランサムウェアとみられるサイバー攻撃を受け、調査および復旧のために一部システム(インターネット、電話、MyChart)をオフラインにした。その後、1週間以上にわたりサービスを大幅に制限して運営することを余儀なくされた。

「Applied Digital」における電力供給の障害

次世代デジタルインフラストラクチャプロバイダーの「Applied Digital」は1月19日(米国時間)から2月15日までの間、データセンターへの電力供給に障害が発生した。原因は送電事業者側にあるとされる。

UCLAバークレー校のデータセンター障害

カリフォルニア大学バークレー校のデータセンターは2月8日(米国時間)、バックアップ電源システムに複数の障害が発生し停電した。この影響でWi-Fiや一部の重要なシステムへのアクセスに障害が発生した。2月9日までに障害は回復。原因はバックアップ用発電機のテスト中に複数のコンポーネントに障害が発生したためとされる。

ネットワーク障害の傾向

ThousandEyesは同期間におけるインターネットサービスプロバイダー(ISP: Internet Service Provider)、クラウドサービスプロバイダーネットワーク、コラボレーションアプリネットワーク、エッジネットワークで観測された障害の傾向について報告している。その概要は次のとおり。

  • 2月初旬は前週と比較して世界的に障害が大幅に増加。障害件数は126件から265件へと110%の増加となった。これは日中を含むアジア太平洋地域(APJC: Asia-Pacific、Japan and China)にて観測されたクラウドサービスプロバイダーネットワークの障害の増加が原因とみられる
  • 米国では2月初週、障害が55件から45件に減少したが、その後102%増加した
  • この期間の米国の障害は全体の23%しか占めなかった。通常は全期間を通して少なくとも40%を占める。主な要因は日中を含むアジア太平洋地域(APJC)の障害とみられる
  • 年始は年末と比較して障害が17%増加。米国でも26%増加。この傾向は例年通りで、年末年始の休暇後に障害が増加する傾向にある
  • 過去8週間のネットワーク障害件数 - 提供:ThousandEyes

    過去8週間のネットワーク障害件数 引用:ThousandEyes

障害対応計画の見直し

インターネットを含む各種サービスの障害は避けることができない。企業は障害の可能性を最小限に抑える努力を継続し、障害発生時はダウンタイムを短くする必要がある。ThousandEyesはそのために、システム運用チームは問題をプロアクティブに検出し、障害の回復力を設計、構築してユーザーへの影響を抑える必要があると指摘している。

過去の障害事例は物事がどのように進行し、ユーザーがそれにどのように反応するのかを知るよい資料となる。各種サービスを提供している運用チームには、過去の事案から自社の障害対応計画を見直して改善することが望まれている。