NTTコミュニケーションズ(以下、NTT Com)は3月19日、IOWN(Innovative Optical and Wireless Network)構想の主要技術であるAPN(All-Photonics Network)で接続した3拠点のデータセンターにNVIDIA H100 GPUサーバを分散配置し、NVIDIA AI Enterpriseソフトウェア プラットフォームの一部であるNVIDIA NeMoを用いた「tsuzumi」の学習実証実験に成功したことを発表した。
実証の背景
生成AIやデータ利活用の進展に伴い、GPUクラスタの重要性が増している。しかし単一のデータセンターでは、生成AIのモデルサイズ増大による処理量の変動やリソース確保の制約、キャパシティや電力供給の制限など、さまざまな課題が存在する。
NTT Comはこうした課題に対し、三鷹と秋葉原の2拠点のデータセンター間でAPNによるGPUクラスタの実効性を検証し、その効果性を確認してきた。2拠点から3拠点、さらにより多数のデータセンターへと分散を進めることで、適切なGPUリソースの配置が期待できる。また各地域のデータセンターを活用して複数拠点でコンピューティングを分散することで、電力コスト削減と持続可能な運用も見込める。
実証の概要
今回の実証ではPoint-to-Pointで接続された分散データセンターの数を、三鷹と秋葉原2拠点から、川崎を加えた3拠点へと拡張。これにより、計算基盤の運用に新たな柔軟性が生まれる。またネットワークの観点から、距離の近い拠点同士でのより低遅延なワークロードや、遠距離の拠点同士での電力効率を意識したワークロードなど、ユーザーの特性に応じた分散学習や推論などのスケジューリングにつながる可能性がある。
実証ではNVIDIAアクセラレーテッドサーバをそれぞれ約25~50キロメートル離れた3拠点のデータセンターに分散して配置。データセンター間を100ギガビット毎秒回線のIOWN APNで接続した。NVIDIA NeMoを使用して3拠点のGPUサーバを連携させ、NTT版LLM「tsuzumi 7B」の分散学習を実施した。
実証の成果
実証の結果、3拠点のデータセンターをIOWN APNでつなぎNVIDIA NeMoを組み合わせた環境で、生成AIのモデル学習を動作させることに成功した。同社によると、世界で初めての成功とのことだ。
単一のデータセンターで学習させる場合の所要時間と比較して、インターネットを想定し帯域制限を実施したTCP通信の分散データセンターでは9.187倍の時間を要したが、IOWN APN経由の分散データセンターでは1.105倍と、単一のデータセンターとほぼ同程度の性能を発揮できることが確認された。