1月10日にオンラインストレージサービスDropboxに障害が起こり、2日間に渡って一部のサービスが利用できなかった問題について、DropboxはOSアップデート用のスクリプトのバグが原因だったと公表した。障害の被害は一部の機能提供にとどまっており、ユーザーのデータは全て無事だという。このサービス障害に関してあるハッカーがAaron Swartz氏を追悼するためにサイバー攻撃を仕掛けたという声明をTwitterで発していたが、DropboxはハッキングやDDoS攻撃の影響を否定している。

Dropboxは1月10日の午後5:30 (PT)に、メンテナンススケジュールに従って一部のデータベースサーバのOSアップグレードを実行した。新しいOSをインストールする前に、スクリプトがアップグレード対象となるマシンにアクティブなデータが存在しないことを確認するプロセスになっているが、そのスクリプトが正常に動作しなかった。ごく一部のサーバに再インストールのコマンドが出され、マスター-スレーブの連携が崩れたことがサイト全体に及ぶ障害の引き金になった。

バックアップからのリカバリによって3時間以内に大部分の機能を回復できたものの、一部の大規模なデータベースのリカバリに時間がかかり、コアサービスの全ての機能を復旧できたのはほぼ2日後の1月12日午後4:40 (PT)になった。障害が起こったデータベースは、写真アルバム共有、カメラアップロードなど機能提供に関するもので、ファイルデータは含まれていない。

アップグレードスクリプトのバグによる障害に見舞われたDropboxは、今後の対策となる2つの仕掛けの追加を明かした。1つはチェックの多重化。再インストールのようなリスクの高いコマンドに対して、サービス障害を避けられるようにローカルで状況を確認するレイヤを追加した。もう1つはリカバリの迅速化。今回、大型のMySQLデータの復旧に時間がかかったため、バイナリログを並列処理することでリカバリにかかる時間を短縮するツールを開発した。同社は、これをオープンソースで公開するという。