NTTドコモビジネス(旧 NTTコミュニケーションズ)は8月27日、距離的に離れたデータセンターにサーバを分散配置した環境において、800G-ZRによる長距離接続とRDMA(Remote Direct Memory Access)技術を活用して独自開発した「RDMA転送ツール」を組み合わせ、データの高速転送を実現したことを発表し説明会を開いた。

この技術を用いることで、分散されたデータセンターにおけるネットワーク構成が簡素化され、消費電力や運用コストを削減しながら高速なデータの転送が可能になるという。複数のデータセンターをあたかも1つのデータセンターのように利用できるようになることで、分散型データセンターの実現も期待できる。

データセンターの分散化が求められている

昨今は生成AIをはじめAIのユースケースが増加し、GPUなど計算資源の必要性が増している。また、1台のサーバに搭載できるGPUの枚数にも限りがあるため、複数台のGPUサーバを並列に使用する場面が増えている。

一方で、ラック当たりの電力密度が高まり、これに伴って発熱量も増えている。一般的には7~20キロワットのラックの空冷ユニットでは120~140キロワットの熱冷却が必要とされているため、液冷サーバの実用化も検討されている。しかし液冷サーバラックを使用する場合、従来のデータセンターの標準的な床荷重を超過する可能性がある。

さらに、災害復旧や事業継続の観点で、特定の拠点に障害が発生した場合でもAI学習や推論を迅速に再開し、サービス停止のリスクを低減させたいという要望もある。複数の拠点にデータやモデルを分散配置して災害時のデータ消失リスクに備えるためにも、データセンターの分散化が検討されている。そこで、各地に点在した大量データの高速な同期および転送が求められている。

  • AI向けGPUインフラに求められる特徴は高性能化している

    AI向けGPUインフラに求められる特徴は高性能化している

「GPU over APN」は3000キロメートルの距離でGPUクラウドを実現

同社はこれまで、「GPU over APN」の実現に向け、秋葉原・三鷹の2拠点におけるAIモデル学習、および秋葉原・三鷹・川崎の3拠点におけるAIモデル学習を実証し、IOWN APN(All-Photonics Network)を利用した分散型GPUクラスタの開発に取り組んできた。

「GPU over APN」とは、計算資源やデータの最適な分散配置を考慮した柔軟なGPUクラウドの実現に向けたコンセプト。これを実現できれば、処理量の変動に応じてGPUリソースを確保できるようになるほか、利用者の拠点から移動できない機密性の高いデータの取り扱いも期待できる。

  • 「GPU over APN」のコンセプト概要図

    「GPU over APN」のコンセプト概要図

同社はその後、3000キロメートルの超遠距離を模した2拠点間をIOWN APNでつなぎ、AIモデルの学習時間を測定する実証を実施。NTTのLLM(Large Language Models:大規模言語モデル)「tsuzumi 7B」の事前学習を、NVIDIA H100 TensorコアGPU 4基を2ノードで行い、処理完了までの所要時間(1ステップ当たりの時間 × 所定ステップ数)を計算した。単一データセンター内、APNで接続した他拠点のデータセンター、従来のインターネット経由の他拠点のデータセンターを比較した。

  • 3000キロメートルの距離を模した実証を実施した

    3000キロメートルの距離を模した実証を実施した

その結果、単一のデータセンターでの学習の所要時間を1とすると、APN経由で分散したデータセンターは約1.07倍、インターネット経由の分散データセンターは約5.10倍と、APN経由の場合は単一データセンターとほぼ同程度の性能を示したとのことだ。

  • 超遠距離を模した実証の実験結果

    超遠距離を模した実証の実験結果

800G-ZRとRDMA転送ツールで高速大容量なデータ転送を実現

今回は、「GPU over APN」のさらなる可能性を探るため、データ転送の高速化に着目。実証では、独自開発したRDMA転送ツールが搭載されたサーバを約40キロメートル離れた武蔵野と秋葉原のデータセンターに分散配置し、データセンター間を800G-ZR技術を用いて接続した。

高速なデータ転送は、生成AIを活用する際のGPUクラスタの分散にとどまらず、離れたデータセンター間でのバックアップや災害時のデータ転送にも有用だと考えられる。

RDMAとは、通信先のサーバのメモリに直接アクセスしてデータを転送できる仕組み。CPUを介さずにNIC(Network Interface Card)からNICへデータを直接書き込むことで、高速なデータ転送を可能としている。

一方で、従来のRDMAは長距離通信での利用においては転送処理の品質に課題があったため、CPUのリソース消費を抑えながら長距離通信においても高速なデータ転送が可能なRDMA転送ツールを、NTTドコモビジネスが独自開発した。

なお、同社が開発したRDMA転送ツールでは、従来のRDMA技術の弱点である長距離伝送時の転送品質の低下に対し、接続の並列化と1回当たりの転送データ量の増加を実現している。

  • RDMA転送ツールの概要図

    RDMA転送ツールの概要図

800G-ZRは800ギガビット / 秒の高速かつ大容量なデータ伝送が可能で、効率的なネットワークの接続技術として注目されている。サーバインタフェースが100ギガビット / 秒や400ギガビット / 秒など高性能化する中で、800G-ZRはこれらの集約トラフィックを低遅延で長距離伝送可能。ネットワークの接続拠点間には伝送装置が不要で、ルーターなどに直接接続できる。

昨今の半導体技術の進歩によって、800G-ZRをマッチ箱ほどのサイズの小型モジュールに搭載できるようになったという。ルーターやスイッチに直接小型のモジュールを挿入できるようになったため、専用の伝送装置を省き電気と光の変換ポイントを減らせる。

  • 800G-ZRの概要図

    800G-ZRの概要図

RDMA転送ツールを用いて1600ギガバイト(200ギガバイト×8)のファイルを転送するテストを実施した結果、データ転送の所要時間はscpやrsync、nfs、mscpなどの実行方式と比較して、約389.9秒から約68.8秒と最大6分の1まで短縮された。

また、トラフィック量は約100ギガビット / 秒から800ギガビット / 秒へと、他の実行方式と比較して約8倍の帯域性能を実現。CPU使用率も20%から5%へ低下し、最大で5分の1の使用率まで削減できることが確認された。

IOWN推進室 担当課長の木村安宏氏は「今回の実証結果は、生成AI用途のみならず、データベースやシステムのバックアップなど分散されたデータセンターにおける幅広いユースケースを見据えて実証を拡張していく。GPU over APNは2026年度中にお客様が利用できる検証環境を提供開始する予定」だと、今後の方針を示した。

  • NTTドコモビジネス IOWN推進室 担当課長 木村安宏氏

    NTTドコモビジネス IOWN推進室 担当課長 木村安宏氏