AWS(Amazon Web Services)で発生した障害について、同社はこの問題の原因を特定して復旧作業を進め、「すべてのAWSサービスが通常運用に戻った」とAWS ヘルスダッシュボード上で発表。

「DynamoDBサービスエンドポイントのDNS解決問題」がこの事象の引き金となり、その後に起きたEC2インスタンス起動障害については「ネットワークロードバランサーの健全性監視を担う内部サブシステム」に根本原因があったと説明している。

今回のAWS障害は、米国太平洋夏時間10月20日午前0時11分(日本時間同日午後16時11分)に発生し、通常運用への復旧発表(米国太平洋夏時間同日15時53分)まで、およそ16時間ほど要した。同様のタイミングで、SlackやZoomといったオンラインツールをはじめ、「Fortnite」などのオンラインゲームなどにいたるまで、多くのネットワークサービスが利用しづらくなっていた。

AWSのステータス情報によれば、障害発生直後の段階で、US-EAST-1リージョンの複数のAWSサービスでエラー率やレイテンシーの増加を確認。その後、このリージョンに依存するDynamoDB APIのエラー率の高さが、同リージョンのAPIエンドポイントのDNS解決に関連している可能性があるとみて復旧対応を進めた。

午前2時24分にDynamoDB DNSの問題が解決した後、サービスは回復し始め、午前3時35分時点では「DNSの問題は完全に緩和され、AWSのサービスオペレーションのほとんどが正常に成功した」と説明。

一方で、DynamoDBに依存しているEC2インスタンスの起動を担うEC2の内部サブシステムに障害が起き、「US-EAST-1リージョンで新しいEC2インスタンス(またはECSなどEC2インスタンスを起動するサービス)を起動するリクエストでは、依然としてエラー率が上昇している」として、引き続き復旧に向けた作業を継続した。

EC2インスタンスの起動障害への対応を続ける中で、ネットワークロードバランサーのヘルスチェックにも問題が起き、Lambda、DynamoDB、CloudWatchといった複数のサービスでネットワーク接続の問題が発生。これらの問題の解決と回復に時間を要したかたちだ。復旧作業の一環として、AWSでは非同期Lambda呼び出しなどの一部の操作を一時的に抑制したとのこと。

午前8時43分には、AWSサービスに影響を与えたネットワーク接続の問題の原因が「ネットワークロードバランサーの健全性監視を担う内部サブシステム」であることを突き止めたと公表。復旧に向けた作業の過程で、午後1時3分には「Lambda呼び出しエラーは完全に回復した」と宣言している。

すべてのAWSサービスは15時1分までに通常運用に戻ったが、15時53分時点ではAWS ConfigやRedshift、Connectなどの一部サービスで引き続きメッセージのバックログが発生しており、今後数時間で処理が完了する予定とのこと。AWSでは後日、詳細な事後サマリーを改めて公開するとしている。