ThousandEyesはこのほど、「WhatsApp & Apple Outages; Plus ITOps Tax Day Survival Tips」において、過去2週間(3月25日から4月7日)にインターネット全体で発生した障害と傾向の分析レポートを公開した。レポート全文は「WhatsApp & Apple Outages; Plus ITOps Tax Day Survival Tips - YouTube」から視聴することができる。
障害と傾向
ThousandEyesはこの2週間に発生したインターネット上の主な障害を解説している。その概要は次のとおり。
4月3日、App Store、Apple TV+、Apple MusicなどのAppleサービスに障害発生
影響を受けたユーザーは更新、ダウンロード、インストールなどの操作に失敗し、タイムアウト、接続の失敗、サービス利用不可などのエラーに遭遇した。
ThousandEyesは、原因について、AppleがサービスのAPI(Application Programming Interface)を調整していたのではないかと推測している。ユーザーがコンテンツを表示すると基本的な情報は正常にロードされるが、バックエンドから追加の情報を取り込む際にエラーとなることが確認されている。
4月3日、Metaの一部サービスにも障害発生
Appleの障害と同日、WhatsAppやMessengerなど一部サービスが利用できなくなり、ユーザーはメッセージの送信を試行できても最終的に送信失敗となる状況となった。原因はアプリケーションのバックエンドに存在したとみられている。
4月1日午後2時36分(協定世界時)、Squareのアプリケーションサービスで障害発生
公式発表「Payments Disruption - Australia Status」によると、原因はモバイルアプリケーションの新しい機能構成の導入にあり、影響を受けたAndroidおよびSquareハードウェアの決済端末がクラッシュした。iOS端末は影響を受けたがクラッシュはしなかった。クラッシュした端末の再起動によりトラフィックが大幅に増加し、トランザクションの処理に失敗する状態に陥った。午後3時25分(協定世界時)までに機能はロールバックされ、サービスを復旧している。
3月22日、米国のレストランチェーン「Panera Bread」で1週間の長期にわたる障害発生
この障害は社内のITシステム、電話、POSシステム、Webサイト、モバイルアプリに影響したとみられている。原因はサイバー攻撃と推測されているが、これまでのところ公式発表は確認されていない。
Microsoftの研究者がSSH(Secure SHell)の遅延とCPU使用率上昇の原因調査中に圧縮ツール/ライブラリ「xz」にバックドア発見
xzは多くのLinuxディストリビューションに採用されているが、複数のディストリビューションに影響したことがわかっている。本件の顛末は、パフォーマンスの変化を認識し、その原因を特定するオブザーバビリティの重要性を強調している
ネットワーク障害の傾向
ThousandEyesは同期間におけるインターネットサービスプロバイダー(ISP: Internet Service Provider)、クラウドサービスプロバイダーネットワーク、コラボレーションアプリネットワーク、エッジネットワークにて観測された障害の傾向について報告している。その概要は次のとおり。
- 3月は中旬ごろから下旬にかけて障害が継続して下降した。調査前の週に164件確認された障害は118件に減少した
- 米国ではあまり減少せず、4月以降は世界的な障害と共に増加に転じている
- 調査期間中の米国の障害は全体の48%となった
- 2月から3月にかけての障害は少ない傾向にあり、これは前年の観測結果と一致する
まとめ
近年のオンラインサービスはパフォーマンス追求のため、ミリ秒単位での最適化が行われている。この最適化は構成の変更とコードの調整を伴うため、予期しないサービス停止の原因となることがある。
ThousandEyesは最適化によりパフォーマンスに急激な変化や異常がみられ、フロントエンドに障害が確認できない場合はバックエンドに影響がでている可能性があるとして、原因を冷静に調査、確認することを推奨している。