NTTコミュニケーションズ(以下、NTT Com)は3月19日、IOWN(Innovative Optical and Wireless Network)構想の主要技術であるAPN(All-Photonics Network)で接続した3拠点のデータセンターにNVIDIA H100 GPUサーバを分散配置し、NVIDIA AI Enterpriseソフトウェア プラットフォームの一部であるNVIDIA NeMoを用いた「tsuzumi」の学習実証実験に成功したことを発表した。
実証の背景
生成AIやデータ利活用の進展に伴い、GPUクラスタの重要性が増している。しかし単一のデータセンターでは、生成AIのモデルサイズ増大による処理量の変動やリソース確保の制約、キャパシティや電力供給の制限など、さまざまな課題が存在する。
NTT Comはこうした課題に対し、三鷹と秋葉原の2拠点のデータセンター間でAPNによるGPUクラスタの実効性を検証し、その効果性を確認してきた。2拠点から3拠点、さらにより多数のデータセンターへと分散を進めることで、適切なGPUリソースの配置が期待できる。また各地域のデータセンターを活用して複数拠点でコンピューティングを分散することで、電力コスト削減と持続可能な運用も見込める。