2024年5月2日(現地時間)、Google Cloudにおいてオーストラリアの年金基金であるUniSuperのアカウントが誤って削除されるという事件が発生した。アカウントと共に、クラウド上に保存されていたデータはバックアップも含めて全て消去され、別のプロバイダーに保存されていたバックアップによって復旧するまで、ダウンタイムは2週間近くに及んだ。このたびGoogleは、公式ブログの記事「Details of Google Cloud GCVE incident」において、このインシデントに関する社内調査の結果を公開した。

  • Details of Google Cloud GCVE incident|Google Cloud Blog

    Details of Google Cloud GCVE incident|Google Cloud Blog

インシデントの原因

Googleによれば、このインシデントの根本の原因は、UniSuper向けにGoogle Cloud VMware Engine (GCVE) のプライベート クラウドを最初に導入した際に、同社の社員が誤って社内ツールの一つのパラメーターを空白のまま構成していたことだという。その結果、UniSuperのGCVEプライベートクラウドは固定期間値としてデフォルトである1年が割り当てられた。そして、その1年が経過した後に自動的に削除される結果になったとのこと。

通常、顧客からのリクエストによってGCVEプライベートクラウドが削除される際は、顧客への事前の通知が送信される。しかしUniSupterのケースでは、Google社員が社内ツールを使ってプロビジョニングを行った結果として削除のトリガーが設定されたため、事前に顧客に通知されることなく削除が実行されたという。

なお、この社内ツールは2023年第4四半期にすでに廃止され、該当するプロセスは完全に自動化されているという。

復旧作業の経緯

インシデント発生後、UniSuperとGoogleは共同でGCVEプライベートクラウドの復旧、ネットワークとセキュリティ構成の復元、アプリケーションの復元、そしてデータの復元に取り組んだ。データの復旧については、「同じリージョンのGoogle Cloud Storageに保存されていたバックアップは削除による影響を受けず、サードパーティーのバックアップソフトウェアと併せて迅速な復元に役立った」と説明されている。

インシデント発生後の両社の声明では、Googleクラウド上のデータはバックアップも含めて失われたが、UniSuperが別のプロバイダーにバックアップをいくつか保存していたためデータを回復できた、と説明されていた。Googleの事後調査の説明と矛盾するが、ダウンタイムが長引いたことを考えれば、いずれかひとつのバックアップだけでは不十分で、複数のバックアップが残されていたことで完全な復元に至ったのではないかと想像できる。

再発防止のための措置

Googleでは、同様のインシデントの再発を防止するために次の措置を講じたと報告している。

  • 一連のイベントの原因となった社内ツールは廃止され、特定の容量管理が必要な場合の構成も完全に自動化された
  • すべてのGCVEプライベートクラウドを手動で確認し、他のGCVEに影響が及んでいないことを確認した
  • 同様のデプロイワークフローでGCVEプライベートクラウドを削除対象に設定するシステム動作を修正した

Googleでは、今回のインシデントが人為的ミスにより発生した単発のものであり、他のGCVEプライベートクラウドに影響を及ぼすようなシステム的な問題ではないと繰り返し説明している。また、Google Cloudサービスには必要に応じて事前通知や人間による介入を組み合わせた強力な安全対策が講じられており、引き続き安全に利用できることも強調している。