KDDI・沖縄セルラーのネットワークで発生した障害は、2022年7月2日未明から30時間以上にわたって継続し、7月3日11時に西日本エリアで、同日17時30分には東日本エリアでも復旧作業が終わった。3日午前にはKDDI髙橋誠社長が報道陣向けの説明会を開催。その時点で判明している障害の原因と現状について説明した。

  • KDDIの髙橋誠社長

7月2日1時35分に障害発生、そのとき何が起きた?

今回の障害は7月2日1時35分頃に発生した。このとき同社では、多摩のネットワークセンターにおいてメンテナンス作業を行っており、ルーター設備の新旧交換を実施してルート変更を行っていた。新ルーターに交換したところ、何らかの原因でVoLTE通信の不通が起きた。

  • 障害の状況。ルーターのメンテナンス作業中に障害が発生し、VoLTE通信が15分間にわたって不通となった

これが15分間にも及び、ルート変更の切り戻し(元に戻す作業)を実施したところ、端末側の再接続要求が殺到してVoLTE交換機で輻輳(ふくそう、通信網内で“渋滞”が起きていることを表す用語)が発生。それを制御するために流量制御を実施して、輻輳の解消を目指した。

  • 切り戻しによってアクセス集中が起き、輻輳が発生。通信しづらい状況に

ところが、ここで加入者データベース(DB)でも輻輳が発生していた。この加入者DBはアクセスしてきた端末の位置情報と加入者情報を管理するデータベースで、この輻輳に対処をしている中で、加入者DBにおけるデータの不一致が発覚した。

  • 加入者DBにも輻輳が発生。データの不一致が起きたことでさらに復旧に時間を要することになった

加入者DBに書き込まれた加入者情報・位置情報と同じ情報がVoLTE交換機にも書き込まれるが、輻輳が発生していたためにVoLTE交換機に書き込みが行えず、加入者DBとVoLTE交換機の間の情報に齟齬(そご)ができてしまったためだった。

これによって障害が長期化。輻輳によって通信の50%を制限する流量規制を実施し、少しずつ復旧を進めていった。現時点で完全復旧には至っていないが、復旧と同時進行でネットワーク試験による検証を行って、最終的に復旧したかどうかを判断する。復旧を前に会見が開催されたため、最終的な復旧がいつになるかは不明な状況だ。

  • 障害の時系列。深夜に発生して、丸一日以上、障害が継続した

最大3,915万回線に影響、KDDI史上最大の通信障害に

この障害による影響は全国に及び、影響した回線数は最大で、個人・法人向けのスマートフォン・携帯電話が約3,580万回線、MVNO向け回線が約140万回線、IoT回線が約150万回線、ホームプラス電話回線が約45万回線、合計で最大3,915万回線となった。ただし、現時点で被害状況は精査できておらず、今後の調査で実際の影響回線数を把握する。

いずれにしても髙橋社長は、影響回線数が最大3,915万回線に及ぶことから「今までの会社の歴史上、一番大きい障害」と話す。

  • 影響を受けた最大回線数

法人向けでは、複数の業界に影響が拡大。物流では宅配便の配送状況の更新やドライバーへの連絡ができなくなり、自動車では「つながるクルマ」向けのサービスが一部停止。気象関連では観測点の一部でデータ送信ができなくなり、銀行では店舗外の一部ATMが利用できなくなったという。

  • 影響を受けた法人の領域

今回の障害は、音声接続用のVoLTE交換機で発生した問題のため、音声だけでなくSMSの利用もできなくなった。このため、2段階認証でSMSを使うサービスに接続できなくなるなどの問題も発生。逆に、データ通信専用の場合は影響を受けず、そのためIoT端末は一部を除いて影響を受けない例が多かったという。

個人・法人向けのスマートフォンでは、iPhoneとAndroidで振る舞いに違いがあり、iPhoneは音声が使えない状態でもデータ接続ができるため、アンテナピクトがなくてもデータ通信が可能だったという。Androidは機種によって挙動が異なり、音声が使えない場合はデータも使えない機種があり、そうした場合にデータ通信もできなかった。

ドコモの障害を踏まえた対策を行ったが「甘かった」

切り戻しによる再接続要求で輻輳が発生してネットワーク障害が長引くのは、2021年に起きたNTTドコモの障害をほうふつとさせる。ドコモの障害を受けて、通信行政を管轄する総務省では事業者の対処を求めており、KDDIでもそれを受けて対策を検討し、さらに追加の対策も加えていたという。

KDDIでは、今回障害が起きたルーターの切り戻しによって、配下に接続している端末がネットワーク接続できなくなっても、別のルーターに接続できるというシミュレーションをしていた。

こうしたルーターは全国6拠点にあり、それぞれのルーターに振り分けで対処できる見込みだった。しかし、「それとは別のシーケンスが動いていた」(取締役執行役員専務・技術統括本部長の吉村和幸氏)。

  • 説明をする吉村和幸氏

シミュレーションでは、VoLTE交換機での輻輳はある程度発生を想定していたそうだが、それに加えて加入者DBの輻輳とデータの不一致が一気に起きたことがログの検証から分かってきており、ここにどういった問題があったのか、今後検証していく。

同社では、ドコモの障害を踏まえた対策を行い、シミュレーションによって安全性を確認した上で実施したつもりだったが、実際には障害を発生させてしまったかたち。髙橋社長は「甘いと言われればその通りだ」と認める。

髙橋社長「補償も検討していく」。原因究明はこれから

現時点で、ある程度の原因と発生プロセスは判明しているが、なぜ、こうした状況に陥ったかは、今後の検証を待つしかない。障害の影響がどの範囲にまで広がったかも、正確なところは現時点では不明で、これもKDDIの調査を待つ必要がある。

こうした調査を行った上で、髙橋社長は「補償も検討していく」考えを示し、約款に従った補償を視野に入れて調査をしていく。

今回、発生が深夜だったが、障害発生30分後の2時には事故対策本部が立ち上がり、髙橋社長には障害の関係でモバイルでの連絡が遅れたが、固定電話で4~5時の間には連絡が行き、東京・新宿にある同社ネットワークセンターに7時前から詰めていたという。

3時4分には総務省にも報告が行われ、障害が長時間かつ影響範囲が大規模であることなどから、総務省の幹部が連絡要員としてKDDIに派遣されていた。「障害の現場に総務省から派遣されるのは初めて」と髙橋社長が話す、異例の事態だったようだ。

総務省からは、1時間に1回のユーザーへの報告や早期の会見の開催が要請されており、髙橋社長は復旧作業の最中に、新宿のネットワークセンターから会見場のKDDI飯田橋本社へ移動して会見に臨んでいた。そのため、障害の詳細や完全回復の見込みなどは不明な状態での説明となった。

今回の障害は、総務省に報告義務のある重大事故に当たることは間違いなく、30日以内に詳細を報告する必要がある。髙橋社長は、「これだけ大きな事故を起こしてしまい、大変申し訳ない」と謝罪。まずは復旧に全力を注ぎ、その後、原因究明と再発防止策の検討を行う考えだ。