ThousandEyesは3月29日(米国時間)、「How Third-party Issues Led to McDonald’s, DMV Outages」において、過去2週間(3月11日から3月24日まで)にインターネット全体で発生した障害と傾向の分析レポートを公開した。レポート全文は「How Third-party Issues Led to McDonald’s, DMV Outages - YouTube」から視聴することができる。

  • How Third-party Issues Led to McDonald’s、DMV Outages

    How Third-party Issues Led to McDonald’s, DMV Outages

主なインターネット障害と傾向

ThousandEyesはこの2週間に発生したインターネット上の主な障害の概要について、以下のように説明している。

2024年3月15日(米国時間)、午前5時(協定世界時)から午後5時(協定世界時)まで世界中のマクドナルドの支払いおよび注文システムが停止

この影響は主にアジア、オセアニア、西ヨーロッパの一部、英国におよび、北米における影響はわずかとみられている。公式の発表「Update on Global Technology System Outage」によると、この障害はサイバーセキュリティイベントによって引き起こされたものではなく、設定変更中のサードパーティープロバイダーによって引き起こされたという。設定変更の内容や、サードパーティプロバイダーの詳細などは明らかになっていない(参考:「マクドナルド、全世界でシステムダウン - 原因は業者による設定変更と発表 | TECH+(テックプラス)」)。

2024年3月21日(米国時間)の朝、米国全土の車両管理局(DMV: Department of Motor Vehicles)のシステムが停止

この障害により、運転免許証や自動車所有権の取引に影響が発生し、自動車代理店は運転免許証と書類を発行できなくなった。原因は米国自動車管理者協会(AAMVA: American Association of Motor Vehicle Administrators)のクラウド接続の喪失にあるとされる。

2024年3月14日午前10時30分(協定世界時)ごろ、ヨーロッパと南アフリカ間の一部通信路で通信帯域が大幅に喪失

原因は西アフリカ海岸沿いの大規模な海底ケーブル切断とされる(参考:「西アフリカ海岸沿いの海底ケーブル切断、1,596.6Gbpsの通信帯域が消失 - Outlookなどに影響 | TECH+(テックプラス)」)。ThousandEyesの調査によると、影響を受けた一部の企業は通信経路を陸上に切り替え、アフリカ北部から海底ケーブルを使用してヨーロッパへつながる通信路を確保して影響を軽減したものとみられる。2024年3月16日ごろまでに大部分の輻輳状態は解消された。

2024年3月19日23時59分(現地時間)、オーストラリアのASX Netのプライマリー回線に障害が発生

原因はファイバーの切断。回線復旧作業は3月21日午前5時59分(現地時間)までに完了し、サービスは同日の午前7時14分(現地時間)ごろに復旧した。この間、ASX Netはバックアップ回線による接続を維持できたため、顧客への影響は小さかったとみられる。

2024年3月21日(米国時間)、PlayStation Networkが最大7時間にわたりサービスを停止

影響は全世界のユーザーに及び、公式ストアやオンラインプレイに障害が発生したとされる。また、ほぼ同時期にNvidiaのクラウドゲームサービス「GeForce Now」においても障害が発生した。これらの障害に関連性はないとみられている。

ネットワーク障害の傾向

ThousandEyesは同期間におけるインターネットサービスプロバイダー(ISP: Internet Service Provider)、クラウドサービスプロバイダーネットワーク、コラボレーションアプリネットワーク、エッジネットワークにて観測された障害の傾向について報告している。その概要は次のとおり。

  • 3月上旬から中旬にかけて障害件数は142件から206件に増加したが、翌週には164件に減少した
  • 米国も同様の推移をたどった
  • 3月11日から24日までの2週間の合計では米国の障害件数が世界全体の約39%となり、40%を超える例年の傾向より低くなった
  • 過去8週間のネットワーク障害件数 - 引用:ThousandEyes

    過去8週間のネットワーク障害件数 引用:ThousandEyes

まとめ

この2週間(3月11日から3月24日まで)ではサードパーティーの障害や物理的な回線切断に起因するインシデントが多く見られた。いずれも直接の管理下にあるネットワークシステム上のトラブルではなく、外部の障害の影響を受けてサービスを停止している。大規模な冗長性を確保していたASX Netは影響を回避しており、バックアップ回線の重要性とサードパーティーへの絶対的な信頼の危険性を示している。

通信インフラのレジリエンス確保には、全体的な冗長性や代替パスの確保、独立したオブザーバビリティの維持が重要とされ、通信障害の影響が大きい組織にはこれら対策の積極的な実践が望まれている。