Cool Chips XV - 「京」のTofuインタコネクトの詳細が明らかに

そして、今回の講演ではパケットのフォーマットも明らかにされた。

Tofuネットワークのパケットフォーマット(出典:Cool Chips XVでの安島氏の発表スライド)

パケットの最大サイズは2048バイトで、8バイトを1ラインとして伝送が行われる。最初の4ラインにパケットの送り元や宛先、長さなどが書かれており、最後のラインには伝送誤りを検出するCRCが書かれている。これらの部分の合計は40バイトであり、2048バイトの最大長のパケットの場合のオーバヘッドは2%と小さい。

また、パケットが誤りなく受信されたことを示すACK応答のパケットなどは8バイト固定長である。

スパコンでは、巨大な計算を多数の計算ノードで分担して計算する。そして、各計算ノードの計算結果を集めて合計すると最終的な答えが得られるというようなケースが一般的である。このようにすべての計算ノードのデータを集めて最終結果を求め、それをすべての計算ノードに知らせる処理がAll Reduceである。また、他の計算ノードの処理結果を使って次の処理を行う場合は、前の計算が完了している必要がある。このような場合、すべての計算ノードの処理の完了を確認し、それを全計算ノードに通知して一斉に次の処理を開始するというやり方が取られる。このような処理をBarrierという。

これらの処理は、全計算ノードからデータを集め、何等かの処理をして、その結果を全計算ノードに送る必要があり、多数回の通信を必要とする。この多数回の通信に毎回CPUがパケットの送信、受信を行っていると時間が掛るので、Tofuはこのような処理をICCチップでやってしまい、CPUの介在なしに実行する機能を持っている。

TofuネットワークのBarrierとAllReduceの性能(出典:Cool Chips XVでの安島氏の発表スライド)

このグラフの上側の2本の線がCPUが介在するソフトウェア処理でのBarrierとAllReduceの処理時間で、下側の2本の線がTofuの機能を使った場合の処理時間である。横軸は計算ノード数である。

このグラフの左端の512ノードの場合、ソフトウェア処理では50μs程度かかるのに対して、 Tofuの機能を使った場合は10μs程度で済む。また、ノード数の増加に対して、ソフトウェア処理の場合は処理時間の増加が大きく、グラフの右端の9200ノード程度では30μs程度処理時間が増加しているが、Tofuの処理では2～3μs程度の増加で収まっている。

そして、安島氏は基調講演の最後に次のスライドを示した。