KDDIは6月10日、4月27日と5月29~30日にかけて発生した障害についての詳細を発表した。ソフトウェアのバグやハードウェアの障害が重なり、長時間の通信障害が発生する結果となった。KDDIでは、障害の対象者となったユーザーに対して、お詫びとして7月以降の請求額から700円(税抜き)を減額して請求する。

障害の概要

今回の障害では、4月27日は6時間17分、5月29日は18時間43分、5月30日は9時間58分に渡って、4G LTEのデータ通信が東京・神奈川・山梨の一部で利用できない、または利用しづらい状態になった。5月29日には音声通話も影響を受けている。データ通信で影響を受けたユーザーは、27日が最大約59万、29日が56万、30日64万。29日の音声通話では、発信で影響を受けたユーザーが約2万8,000、着信では約8万6,000が影響を受けた。

au携帯電話のネットワーク構成。LTEと3Gでは一部設備が異なり、今回は特にMMEが問題を起こした

LTE基地局の接続管理、端末の移動管理制御を行うMME。平時は冗長化のため、MME01と02に分けられている

3回に渡る障害は、いずれもLTEの基地局を制御する装置(MME)に起因するもので、最初の4月27日の障害からひと続きの問題とされる。4月27日は、フラグメント化されたパケットの処理に関して、MMEのソフトウェアにバグが存在し、エラーが発生したことで2つあるMME(MME01、MME02)のうちの1系統がダウン。さらに復旧を行うためのリカバリー処理にもバグがあり、2つ目のMMEも利用できなくなり、障害が発生した。

4月27日の障害。フラグメント化されたパケットの処理に関するバグとリカバリー処理のバグでMMEが両系統ともダウンした

KDDIではその後、このフラグメンテーション処理のバグを解消するための修正ファイルを、順次全国のMMEに投入していった。それが5月29日の障害につながっていく。

5月29日、バグを修正するために障害の該当地域を担当するMMEに修正ファイルを適用しているさなか、MME01でハードウェアに障害が発生した。MME自体はKDDIがLTEを導入する際に採用していた新しい機材だが、何らかの理由でハードウェアに不具合が発生。このため、作業を中断して復旧を行おうとした。この際、MME01が切断され、MME02に全てのデータが流れる形になった。この処理の一部で輻輳(ふくそう)が発生。復旧のためのリカバリー処理が実行され、4月27日のリカバリー処理のバグが再発。MME02もダウンすることになった。

ハードウェア障害からリカバリー処理のバグを誘発して両系断が発生した

これを受けて、30日には再び修正ファイルを適用する準備を進めていた。この時は、最初からMME01を外し、急にMME02にデータが流れないようにした上で準備を進めたが、MME02で特定プロセスが過負荷状態に陥り、MME02がダウンした。