Slackの問題から学ぶ、複雑なシステムの部門間調整とサイロ化緩和の重要性

ThousandEyesはこのほど、「An August Slack Outage and Why Context Matters」において、近年複雑さを増すWebアプリケーションやサービスにおける部門間の調整の重要性と、部門間でシステムが孤立するサイロ化の緩和について、Slackにおける最近の混乱から教訓が得られると伝えた。

ThousandEyesによると、8月2日午後4時1分(協定世界時)から午後6時にかけて、Slackでファイルのアップロードやスクリーンショットの共有ができないなどの問題が発生していたという。その後、一部のユーザーで各種エラーや速度の低下、動作の不安定化、ログインができないなどの症状が発生したとみられている。本件に関する詳細は、SlackのStatus Siteにおいて、詳細が報告されている。

Slackによると、この問題は定期的なデータベースクラスタの移行時に誤ってキャパシティを減少させたことに起因し、リクエストの数がデータベースクラスタのキャパシティを超えたためとされる。ThousandEyesではこの点について、データベースクラスタの移行がほかの活動と組み合わせた場合の潜在的な影響を認識できていかなったのではないかと指摘している。

Slackの定期的に行われるデータベースクラスタの移行でこれまでに同様の問題が起きていないことは、少なくともデータベースクラスタのキャパシティに関して部門間で調整が計られていないか、またはその影響を認識できていなかったと推測される。このことは、部門間でのコミュニケーションと調整が、定期的に繰り返しになったとしても重要であることを教えてくれる。

また、キャパシティの変更が与える影響範囲を事前に把握できていれば、キャパシティを減少させることもなかったと考えられ、部門間でシステムが孤立するサイロ化を引き起こさないようにシステムを作り上げることの重要性を示している。