AWS障害は復旧、「全サービスが通常運用に戻った」。原因特定も

AWS(Amazon Web Services)で発生した障害について、同社はこの問題の原因を特定して復旧作業を進め、「すべてのAWSサービスが通常運用に戻った」とAWS ヘルスダッシュボード上で発表。

「DynamoDBサービスエンドポイントのDNS解決問題」がこの事象の引き金となり、その後に起きたEC2インスタンス起動障害については「ネットワークロードバランサーの健全性監視を担う内部サブシステム」に根本原因があったと説明している。

今回のAWS障害は、米国太平洋夏時間10月20日午前0時11分(日本時間同日午後16時11分)に発生し、通常運用への復旧発表(米国太平洋夏時間同日15時53分)まで、およそ16時間ほど要した。同様のタイミングで、SlackやZoomといったオンラインツールをはじめ、「Fortnite」などのオンラインゲームなどにいたるまで、多くのネットワークサービスが利用しづらくなっていた。

AWSのステータス情報によれば、障害発生直後の段階で、US-EAST-1リージョンの複数のAWSサービスでエラー率やレイテンシーの増加を確認。その後、このリージョンに依存するDynamoDB APIのエラー率の高さが、同リージョンのAPIエンドポイントのDNS解決に関連している可能性があるとみて復旧対応を進めた。

午前2時24分にDynamoDB DNSの問題が解決した後、サービスは回復し始め、午前3時35分時点では「DNSの問題は完全に緩和され、AWSのサービスオペレーションのほとんどが正常に成功した」と説明。

一方で、DynamoDBに依存しているEC2インスタンスの起動を担うEC2の内部サブシステムに障害が起き、「US-EAST-1リージョンで新しいEC2インスタンス(またはECSなどEC2インスタンスを起動するサービス)を起動するリクエストでは、依然としてエラー率が上昇している」として、引き続き復旧に向けた作業を継続した。

EC2インスタンスの起動障害への対応を続ける中で、ネットワークロードバランサーのヘルスチェックにも問題が起き、Lambda、DynamoDB、CloudWatchといった複数のサービスでネットワーク接続の問題が発生。これらの問題の解決と回復に時間を要したかたちだ。復旧作業の一環として、AWSでは非同期Lambda呼び出しなどの一部の操作を一時的に抑制したとのこと。

午前8時43分には、AWSサービスに影響を与えたネットワーク接続の問題の原因が「ネットワークロードバランサーの健全性監視を担う内部サブシステム」であることを突き止めたと公表。復旧に向けた作業の過程で、午後1時3分には「Lambda呼び出しエラーは完全に回復した」と宣言している。

すべてのAWSサービスは15時1分までに通常運用に戻ったが、15時53分時点ではAWS ConfigやRedshift、Connectなどの一部サービスで引き続きメッセージのバックログが発生しており、今後数時間で処理が完了する予定とのこと。AWSでは後日、詳細な事後サマリーを改めて公開するとしている。

AWS障害は復旧、「全サービスが通常運用に戻った」。原因特定も

合掌も可能！　XNOVAなどが仏教対話AI搭載の「ブッダロイド」を開発

ゼネテック、PLM導入の成功確率を向上させる業務診断サービスを提供開始へ

インテルのIntel Foundryトップが2年で交代、Naga Chandrasekaran氏が就任

東陽テクニカ、量子センシングに不可欠な高感度イメージングカメラの国内販売開始

九大、隕石衝突がRNAを合成せずに前駆体を分解してしまうことを発見

Rapidusに民間32社が出資 - 官民の総出資額は2676億円に

編集部が選ぶ関連記事

AWS、セキュリティ対策の最新情報とセキュリティサービスのアップデートを説明

Amazon ECSの認証情報を窃取する攻撃「ECScape」に注意、緩和策の実施を

AWS Organizations連携サービス最新情報＆セットアップのコツ第25回 AWS Resource ExplorerのAWS Organizations連携機能

Googleら700社以上が影響を受けたサイバー攻撃の原因はGitHubの軽微な侵害

関連リンク

ゼネテック、PLM導入の成功確率を向上させる業務診断サービスを提供開始へ

東京大学×NTT×NEC、6G・IOWN基盤に3者技術を統合しリアルタイムAR支援の実証に成功

富士通、阪急阪神百貨店にPOSソリューションを導入し顧客の買い物体験を向上

デンソークリエイト、“使い続けられる”AIエージェント基盤を提供開始

野村不動産HD×ゴーレム、AIで建物建設時のCO2排出量を自動算定

デル、屋外の過酷な環境でもエッジAIの活用を支援する「Dell PowerEdge XR9700」

このカテゴリーについて

AWS障害は復旧、「全サービスが通常運用に戻った」。原因特定も

合掌も可能！ XNOVAなどが仏教対話AI搭載の「ブッダロイド」を開発

ゼネテック、PLM導入の成功確率を向上させる業務診断サービスを提供開始へ

インテルのIntel Foundryトップが2年で交代、Naga Chandrasekaran氏が就任

東陽テクニカ、量子センシングに不可欠な高感度イメージングカメラの国内販売開始

九大、隕石衝突がRNAを合成せずに前駆体を分解してしまうことを発見

Rapidusに民間32社が出資 - 官民の総出資額は2676億円に

編集部が選ぶ関連記事

AWS、セキュリティ対策の最新情報とセキュリティサービスのアップデートを説明

Amazon ECSの認証情報を窃取する攻撃「ECScape」に注意、緩和策の実施を

AWS Organizations連携サービス最新情報＆セットアップのコツ 第25回 AWS Resource ExplorerのAWS Organizations連携機能

Googleら700社以上が影響を受けたサイバー攻撃の原因はGitHubの軽微な侵害

関連リンク

ゼネテック、PLM導入の成功確率を向上させる業務診断サービスを提供開始へ

東京大学×NTT×NEC、6G・IOWN基盤に3者技術を統合しリアルタイムAR支援の実証に成功

富士通、阪急阪神百貨店にPOSソリューションを導入し顧客の買い物体験を向上

デンソークリエイト、“使い続けられる”AIエージェント基盤を提供開始

野村不動産HD×ゴーレム、AIで建物建設時のCO2排出量を自動算定

デル、屋外の過酷な環境でもエッジAIの活用を支援する「Dell PowerEdge XR9700」

このカテゴリーについて

合掌も可能！　XNOVAなどが仏教対話AI搭載の「ブッダロイド」を開発

AWS Organizations連携サービス最新情報＆セットアップのコツ第25回 AWS Resource ExplorerのAWS Organizations連携機能