ThousandEyesは2024年4月26日(現地時間)、「Inside the ChatGPT Outage & More News」において、過去2週間(4月8日から4月21日)にインターネット全体で発生した障害と傾向の分析レポートを公開した。レポート全文は「Inside the ChatGPT Outage & More News」から視聴することができる。
障害と傾向
ThousandEyesはこの2週間に発生したインターネット上の主な障害を解説している。その概要は次のとおり。
4月10日:ChatGPTのパフォーマンスが低下
18時(世界協定時)頃、OpenAIのChatGPTにおいてパフォーマンスが低下し、ユーザーからのリクエストに対して403 Forbiddenエラーが多数発生する事態となった。根本の原因はChatGPTクラスタのコントロール プレーン サービスに障害が発生したこととされている。
OpenAIでは、影響を受けるクラスタから正常なクラスタへのトラフィックのリダイレクトを手動で行った。これによって2番目のクラスタの負荷が増加するためスケールアップを実施したが、それでも増加したリクエストを処理し切れず、結果的にパフォーマンスの低下が解消されなかった。
最終的に、Kubernetesコントロール プレーンで使用可能なメモリを増やし、トラフィックのバランスを再調整することで、影響は軽減されたとのこと。
4月11日:MVNOのSky Mobileで接続障害が発生
仮想移動体通信事業者(MVNO)のSky Mobileの3G/4G/5Gの通信サービスで障害が発生。ユーザーは、インターネットに接続できなくなったり、電話をかけられなくなるなどの影響を受けた。Sky Mobileではこの前日にメンテナンス作業を実施しているが、ThousandEyesによると、このメンテナンスと障害との関連性はなさそうだという。
4月12日:Unpkg CDNに接続できない障害が発生
8時(協定世界時)頃、npmパッケージ用の無料のコンテンツ配信ネットワーク(CDN)である「Unpkg」で障害が発生し、リクエストが正常に処理されないエラーが発生した。これによって、Unpkgを使用する複数のWebサイトでサービスを継続できない影響を受けた。
UnpkgのCDNはCloudflareを利用して提供されている。障害発生時、影響を受けたWebサイトはCloudflareから520エラーを受け取っていた。これは通常、プログラムやcronジョブ、またはリソースが必要以上に多くのシステム リソースを占有し、サーバーがリクエストを正常に処理できなくなったときに発生するエラーだという。
4月13日:PlayHQでサイト全体の機能が低下
オーストラリアのコミュニティスポーツのポータルサイト「PlayHQ」で障害が発生し、約4時間半にわたってサイト全体の機能が低下した。この間、PlayHQのアプリのユーザーは、404エラーの発生や、管理機能と登録機能が表示されないなどの影響を受けた。原因は、2024年1月に導入したモバイルアプリの変更が正しくキャッシュされていなかったことだという。
4月15日:税務書類作成サービスのH&R Blockで障害が発生
米国の税務書類作成サービス「H&R Block」において、デスクトップ クライアントがH&R Blockのサーバに接続できなくなる障害が発生。これによって、一部のユーザーが電子申告書の提出ができなくなる影響を受けた。同日は米国の納税申告の締切日であり、回復するまでの4時間で約2000件の問い合わせがあったという。
ネットワーク障害の傾向
ThousandEyesは同期間におけるインターネットサービスプロバイダー(ISP: Internet Service Provider)、クラウドサービスプロバイダーネットワーク、コラボレーションアプリネットワーク、エッジネットワークにて観測された障害の傾向について報告している。その概要は次のとおり。
- 4月初旬に始まった世界的な障害の増加傾向は続いており、第2週の停止件数は第1週と比較して11%増加し、145 件から161件に急増した。この傾向は次の週(4月15~21日) にも続き、停止数は6%増加した
- 米国でも4月の第2週と第3週に停止件数が増加し、第2週は4%、第3週は18%増加した
- 4月8日から21日の間に、米国でネットワーク障害全体の47%が観察されました