NTTドコモは1月26日、前日に発生した通信障害について詳細を説明する会見を開き、障害の発生について謝罪。同社は、今回の通信障害をトラフィック予測の見通しの甘さによるものと分析、早急に対策を進めていく意向だ。

今回発生した障害は、1月25日の朝から東京都心でスマートフォンによる通信が行えず、音声通信やiモード携帯電話もつながりにくい状態が続いたというもの。当初ドコモでは東京・JR山手線の遅延にともなう通信増大が影響したとの見方も示していたが、調査の結果、パケット交換機の入れ替えにともなう輻輳が直接の原因と判明した。ドコモは昨年からたびたび通信障害や通信事故を起こしており、所管する総務省も同日、ドコモに対し、再発防止策などを早急に実施し、その結果を報告するよう指導している。

ドコモでは、スマートフォンの急増にともなう通信量の増大に対応するため、新型のパケット交換機を開発していた。これは1年ほどかけて開発を行ったもので、処理能力を強化。特に同時接続数の増加への対応を行っていた。従来のiモード携帯では、通信を行う度に接続を行い、通信が終わると切断するという動作だったが、スマートフォンでは常時接続状態であり、ユーザーが増えるほど同時接続数は増加するため、従来の交換機では処理しきれないと判断して、1台当たり旧型交換機の7倍の能力に強化した。

それに対して、端末がネットワークに接続・切断する際に送受信される制御信号を処理する能力は同2倍程度の強化にとどめ、より同時接続数への対処に能力を振り分けた設定になっていた。

この新型パケット交換機3台を、旧型交換機11台と入れ替えて全体の能力向上を図ったのが端緒だ。この時、旧型11台が処理できる同時接続数は88万、1時間当たりの信号量は2,750万で、新型3台と入れ替えたことで、同時接続数は180万、信号量は1,410万の処理能力となった。この時、同社では同時接続数71万、信号量1,200万とトラフィックを想定していた。

旧型と新型の処理能力と、トラフィック予測。障害発生時のトラフィックは実数ではなく、あくまで推定のもの

交換機の入れ替えは2段階で行われ、まず1月20日に旧型4台が収容する23台の無線制御装置を、新型3台に収容するように切り替えた。これは東京・新宿区、文京区、江東区などのエリアをカバーする装置で、処理が正常に行われているか、エラーが出ていないかなどの確認を行いながら運用を続け、24日深夜に旧型7台が収容する37台の無線制御装置を新型3台が管理するよう切り替えを行った。目黒区、大田区、中央区などがカバーされ、東京23区の多くが新型に切り替わったことになる。なお、3台の新型は群馬県の同社ビル内に設置されており、37台の無線制御装置は都内のビルに設置されているものだ。

2段階で旧型から新型にパケット交換機を交換し、2回目の交換で問題が発生した

切り替えは25日午前3時40分までには終了し、ユーザー数の少ない深夜時間帯は順調に動作していた。朝になり、通勤時間にともなってトラフィックが増大し、午前8時26分ごろ、端末からの制御信号の破棄が発生し、接続しづらい状態が発生、「軽い輻輳状態」(同社サービス運営部長丸山洋次氏)になっていたという。それを丸山部長が把握して対処の指示を出したのが「8時45分ぐらいだった」。その時点で新型に収容されていたユーザー数は252万で、同社ではこれを影響があった最大の人数としている。

ただし、この時点ではまだ原因はつかめておらず、輻輳を解消するため、無線制御装置が自動で規制を行う自律規制が9時9分に動作した。この自律規制は、問題のパケット通信だけでなく音声の規制も実施し、さらにスマートフォンとは別のiモード携帯のパケットも規制を行った。これにより、スマートフォンのパケット通信だけでなく、音声やiモード通信もつながりづらい状態になった。この自律規制は、輻輳が解消すれば「10~20分もかからずに(規制は)ゼロに戻る」(同)が、輻輳がさらに悪化したため、ドコモでは「9時26分」(同)に手動でスマートフォンのパケット通信だけ30%規制を実施。これによってさらにパケット通信がつながりにくい状態に陥った。

新型切り替えにともなう障害のため、ドコモでは新型3台から旧型に戻す作業を10時56分から開始。切り替えが完了した基地局から順に規制を解除していき、午後1時8分にはすべての基地局の規制が解除された。

JR山手線の問題はトラフィック増大の1つの影響だが、もともと山手線沿線のトラフィック量は多く、「9時過ぎにトラフィックは増加したが、急増というわけではない」(同社岩崎文夫取締役常務執行役員)状態で、直接の原因ではなかった。最大の要因は、同社のトラフィック予測の「見積もりの甘さ」(同)だ。

今回の問題が発生した段階でのトラフィックを推定したところ、同時接続数は71万程度と予測の通りだったが、1時間当たりの信号量は予測の1,200万を超える1,650万に達し、新型の処理能力1,410万を超えてしまったため輻輳が発生し、障害にいたったというのがドコモの分析だ。

同社は、制御信号の予測に際してAndroidの信号量を調査。アプリを全く入れず、Android OSだけの状態では28分に1回の制御信号が送受信されていた。これにアプリを導入すると、そのアプリが制御信号を発信。特に常時接続状態を必要とするVoIPやチャット系のアプリでは、3~5分に1回と短時間で制御信号を送信していた。

世界中の通信事業者らが集まる業界団体のGSMAでは、こうしたアプリが送信する制御信号の抑制などの対策に取り組むことが議論されており、VoIP系のアプリなどで頻繁に制御信号が送信されることを、ドコモでも「11月ごろ」(岩崎常務)には確認。国内では、特にLINEのようなVoIPアプリがCM効果などで急激にユーザー数を伸ばしていたが、それを想定した予測を立てるべき所で、信号量を少なく見積もったことで障害が発生した。

同社では、まず同時接続数の問題が顕在化するとみていたため、岩崎常務は新型の開発でもそちらを優先しすぎていたと話す。1台当たりの信号量の処理能力は向上していたが、全体としての処理能力は落ちていたことが障害を招いたとして予測ミスを認める。

岩崎常務によれば、Androidスマートフォンが発信する制御信号は、「アプリすべては見ておらず、限られた範囲」(同)では、従来のiモード携帯に対して10倍の量に達しているという。送受信される実際のデータ量も10倍になっており、これがトラフィックの急増を招いているが、今回はそれにもかかわらず実際の制御信号量を見誤ったことになる。

ドコモでは今後、全国にあるパケット交換機約200ユニットの処理能力を点検する。これには、年2回更新される交換機のソフトウェアの新版に導入された「信号量測定機能」を使う。この信号量測定機能は、今回の新型が第1号の導入例だったが、実際の信号量を集計する前に障害が発生したそうだ。

この点検結果を踏まえて、パケット交換機の増設を速やかに実施し、今年8月中旬までをめどに、パケット交換機のリソース配分の最適化を行い、処理可能な信号処理数の向上を図る。もともと新型は順次増設を予定していたが、同時接続数処理に偏った能力配分を改め、信号量の処理能力も強化する方針だ。

(記事提供: AndroWire編集部)