ABCIはEDR InfiniBandのネットワークを使う

InfiniBandスイッチによる接続は、次の図のようになっている。ABCI全体のネットワークをつなぐのはMellanoxのCS7500ディレクタスイッチである。CS7500は最大648ポートの大型のスイッチで、ABCIはこれを2台使っている。

  • MellanoxのCS7500 ディレクタスイッチ

    MellanoxのCS7500 ディレクタスイッチ

そして、ラックに搭載するリーフスイッチとしては36ポートのSB7890スイッチをラック当たり7台使っている。

接続は、次の図に示すように、各ノードから2ポートが出ており、ラック全体では68ポートある。リーフスイッチは36ポートであるが上側のスイッチへの接続に半分のポートを使うとすると、計算ノードに使えるポート数は18ということになる。4台のリーフスイッチがあり合計で72ポートあるが、その内の68ポートを計算ノードに接続する。

リーフスイッチから上側のFBBスイッチには6本を1リンクにまとめて並列に接続する。これでリーフスイッチの上側の18ポートが使われることになる。ここまでの範囲のネットワークは、データを送る宛先が重複してデータが衝突することが無ければ、同時にすべての計算ノードが送信と受信を行うことができるFull BiSection Bandwidthのネットワークになっている。

FBBスイッチとスパインスイッチ(またはディレクタスイッチとも呼ばれる)の間は4本並列のリンクが2本であり、ラック当たり24ポート分と、Full BiSectionの1/3のバンド幅(1/3 Oversubscription)のネットワークとなっている。ただし、CS7500のポートをフル実装して光ファイバケーブルを追加すれば、この部分もFull BiSectionにできるはずであり、そこまでのバンド幅は必要ないという判断か、あるいは予算上の制約かと思われる。

なお、次の図では省かれているが、スパインスイッチからは22PBの大容量ストレージ、10台の汎用ノード、管理サーバ、ゲートウェイなども接続する必要があり、この接続のためのポートを用意して置く必要がある。

  • ABCIスパコンはEDR Infinibandネットワークで計算ノードを接続する

    ABCIスパコンはEDR Infinibandネットワークで計算ノードを接続する。ラック内はフルバイセクションであるが、ラック間の接続は3倍のオーバーサブスクリプションになっている

ABCIの22PB大容量ストレージ

そして、ABCIスパコンは、大容量ストレージとして、22PBのGPFSファイルシステムを持っている。このストレージは、3台のData Direct NetworkのSFA14Kで作られている。

  • ABCIスパコンのストレージ

    ABCIスパコンのストレージは、3台のData Direct NetworkのSFA14Kストレージで構成されている

ABCIデータセンター棟の構造

次の図の左下にAIデータセンター棟のフロアプランが書かれている。下側の72ラックと書かれた部分に計算ノードが1088台詰め込まれている。この部分は、温水冷却である。

そして、その上の18ラック分のスペースに、10ノードの汎用ノード、大容量ストレージ、InfiniBandのディレクタスイッチなどが置かれており、この部分は空冷である。

  • AIデータセンター棟のフロアプランと屋外に設置された冷却設備

    AIデータセンター棟のフロアプランと屋外に設置された冷却設備。最大144ラックを置くスペースがあるが、現在のABCIは41ラックしか使っていない

そして、この部分は、停電の場合は仕掛中のジョブの状態などをファイルにセーブして、復電すれば再開ができるようにするため、200KVAの電力を10分間供給できるUPS(無停電電源)でバックアップされている。計算ノードは停電になっても、チェックポイントから計算を再開すれば良いので、UPSのバックアップは行っていない。

  • ABCIスパコンのUPS

    ABCIスパコンのUPS

1つ前の図の中央の写真はデータセンターの裏手にある屋外の冷却設備である。パッシブ冷却塔と書かれた部分が、クーリングタワーで、この地域で予想される最悪の気象条件でも3.25MWの冷却ができる設計になっている。クーリングタワーの左手に200kWのアクティブチラーがある。コンプレッサーを使って低温の水を作って、リアドアクーラーに供給することを意図して設置したが、リアドアクーラーが無くても問題ないので、チラーはまだ、使ってないという。

(次回は8月9日に掲載します)