KDDIは16日、昨年末から年初にかけて、複数回発生したau携帯電話ネットワークの障害についての説明会を開催した。説明会では、装置の設計ミスなどの原因を説明するとともに、現状の対策の実施状況を明らかにした。

今回、同社が説明したのは、「12月31日午前0時0分~2時55分、同2時55分~4時23分まで続いた、auの4G LTEにおけるデータ通信サービス障害」、「1月2日午前0時17分~2時10分まで続いた、同じく4G LTEのデータ通信サービス障害」、「1月1日午前0時12分~午前2時29分、同午前9時33分から午後1時33分まで続いたau ID認証決済システム障害」の3つについて。

障害の説明を行うKDDI 技術統括本部運用本部長の内田義昭氏

2つの4G LTEの障害

ひとつ目の障害は、発生後2時55分まではLTE対応端末でデータ通信が行えず、それ以降は通信がしづらい状態になり、最大180万人が影響を受けたというもの。障害自体は、まず障害発生直前にLTE対応端末から瞬間的なトラフィックが急増。その直前までの7倍のトラフィックが発生し、しかもその瞬間的なトラフィックが十数秒にわたって継続したという。

最初の4G LTEの不具合の発生状況

KDDIのLTEネットワークでは、基地局から到達した信号が「基地局制御装置」を通り、「信号中継装置」に送られ、「信号制御装置」を経て、ユーザーの利用量制御の認証を行う「加入者プロファイルサーバー」に到達。認証を受けた後、その信号が端末まで同じ経路を戻る仕組みとなっている。LTE対応端末が3Gエリアにいる場合は、3G用の基地局制御装置をから、LTEと同じ信号中継装置に送られ、その後は同じルートで信号が送られる。

KDDIのネットワーク構成図(今回影響を受けた範囲)。LTE端末からの信号は、LTEエリア、3Gエリアで基地局制御装置が異なるが、それ以降は同じルートを通る

ひとつ目の障害では、トラフィックの急増でアクセス集中が起きた結果、最終的に加入者プロファイルサーバーのパッファがオーバーフローし、認証の応答がない、または遅延する状態が発生した。

原因の詳細。直前の7倍のピークトラフィックが継続して行われ、その処理が滞り、セッション解放・再接続要求が行われた

この加入者プロファイルサーバーは、大量のアクセスがあって信号を処理するキューが一定以上に達すると、その信号を破棄する仕組みになっている。認証結果を受け取る信号制御装置は、3秒まで応答を待つ「待受けタイマー」が設定されており、3秒以内に応答が帰ってくれば、その信号を信号中継装置に送る。しかし、信号中継装置の待受けタイマーは2秒になっており、信号制御装置が2秒以上3秒以内で返した応答を受け付けない状態だった。

通常であれば、加入者プロファイルサーバーは0.1秒で処理を終了するのに、今回はキューを破棄したことによる無応答または処理が遅れる応答遅延が発生。2秒以上3秒以内の応答遅延の信号は、信号制御装置は通過するものの、信号中継装置では無応答と判断され、端末に対して信号を再送し、セッションの解放を行った。セッションが解放された端末は、再び接続要求を行う。すると、そこでまたアクセスが発生するという「負のスパイラル」(KDDI技術統括本部運用本部長内田義昭氏)に陥り、最終的には信号制御装置で輻輳が発生し、通信が行えない状態となった。

正常の処理では、加入者プロファイルサーバーがすぐさま処理するため、タイマーの問題は発生しなかった

今回は、この処理が滞ったため、タイマーの問題が顕在化した。この問題が発生したのは初めてという

原因は、この信号中継装置の待受けタイマーが2秒であったことに対して、信号制御装置が3秒と長いという不整合で、内田氏は「設計考慮不足」と話す。

対策としては、信号制御装置の待受けタイマーを1.2秒と短くし、信号制御装置を通過しながら、信号中継装置で無応答と判断される不整合の事態を回避する。さらに、加入者プロファイルサーバーが無応答または遅延した場合に、信号制御装置が代わりに信号を処理する代理応答機能を搭載した。

対策として、待受けタイマーを変更し、緊急時の代理応答機能も搭載した

もともと加入者プロファイルサーバーは、1カ月7GBの通信量制限を把握するための装置だが、無応答・応答遅延の緊急事態にはこの認証処理をパスし、一時的に代理応答で処理を優先するようにした。この対策は1月14日までに実施。

これによってセッション解放・再接続を防ぎ、輻輳の発生を抑えることで同様の事態の発生を防止する。さらに、加入者プロファイルサーバーの処理能力を向上させるため、サーバーを増設。1月12日実施し、1月24日までに完了させる予定だ。