GitHubはこのほど、「GitHub Availability Report: November 2023 - The GitHub Blog」において、2023年11月の可用性レポートを公表した。今回のレポートでは、GitHubサービス全体のパフォーマンスを低下させた1件のインシデントが報告されている。
GitHubで発生したインシデントの概要
インシデントは2023年11月3日18時42分から19時20分(協定世界時)にかけて、38分間にわたって発生した。原因は認証サービスにおけるメモリの過剰使用で、この時間は認証リクエストが失敗し、ほとんどのページおよびAPIリクエストで404エラーが返されるか、またはタイムアウトが発生したという。
GitHubの調査によると、最適化のためにアップデートした承認用マイクロサービスにおいて、高トラフィック下でメモリリークが発生していたことが判明したとのこと。テスト時にはメモリリークの発生に至る十分なトラフィックがかからなかったことで、問題を発見することができなかったとしている。最終的に、該当のマイクロサービスを変更前にロールバックすることで問題は解消した。
レポートでは、将来的なデプロイメントのリスクを軽減するために、追加の監視とチェックを含めてロールアウト戦略を変更したことが報告されている。
GitHubは定期的に可用性レポートを公開しており、リアルタイムの稼働情報を「GitHub Status」から確認可能。