ThousandEyesはこのほど、「AWS Outage Analysis: June 13, 2023」において、Amazon Web Services(AWS)のUS-EAST-1リージョンで重大なインシデントが発生したことを伝えた。

2023年6月13日に発生したこのインシデントは2時間以上続いたとされ、ThousandEyesが問題を最初に検出した時点で、AWS内でホストされているアプリケーションの可用性に影響を与えるレイテンシーの増加、サーバのタイムアウト、HTTPサーバエラーが観測されている。問題は協定世界時(UTC: Coordinated Universal Time)の20時40分までにほぼ解決し、影響を受けたとされるAWSサービスとアプリケーションの可用性は通常レベルに回復したと報告されている。

ThousandEyesの調査によると、AWSサーバまでのネットワーク経路に関しては問題はなかったという。ただし、アプリケーションへのアクセスに問題が発生しており、ユーザーの応答時間が遅くなったり、タイムアウトやHTTP 5XXサーバエラーが発生したりしたことが確認されている。また、今回のインシデントによって影響を受けたアプリケーションは、フロントエンドのWebサーバの場所に関係なく問題が発生したとされている。

  • HTTP server errors indicate internal application issue

    HTTP server errors indicate internal application issue

インシデントの発生から約20分後の協定世界時19時8分に、AWSが対象のリージョンの問題の調査を開始、同26分にUS-EAST-1の容量管理サブシステムに問題があったことが特定されている。またこの問題により、Lambda、API Gateway、AWS Management Console、Global Acceleratorなど、104以上のサービスに影響が出たことが明らかにされている。

今回のインシデント、モダンアプリケーションやサービスが相互に依存し、複雑なネットワークを形成していることが浮き彫りになった。これらの依存関係の多くは組織が直接利用しているサービスに関連し、組織内では間接的に存在し隠れている可能性があると指摘されている。特にAWSなどのクラウドプロバイダーが提供する多くのサービスは、基本的なアーキテクチャ上の相互依存関係を持っているとされ、クラウドサービスを利用する組織は、サービスやネットワークにかかわらず、デジタルエコシステム内の関係を認識することが求められている。

依存関係や潜在的なリスクを理解する上で、可視性が重要とされている。ThousandEyesは、可視性を高めることで脆弱性を認識し、事前に軽減策を立てて悪影響を最小限に抑えることができると助言している。素早く検知することで高い可用性を維持することができ、問題の正確な原因を特定することができるとしている。