NTTコミュニケーションズ(以下、NTT Com)は10月7日、超高速かつ超低消費電力な通信の実現を目指すIOWN(Innovative Optical and Wireless Network)構想の主要技術であるAPN(All-Photonics Network)によって接続したデータセンターに、NVIDIA GPU搭載サーバを分散配置した環境で、生成AIモデル学習の実証実験に成功したことを発表し、記者向けの説明会を開いた。
実証の取り組み背景
生成AIの利活用をはじめデータ分析や画像処理といった高度な技術によって、多くの計算資源が求められている。また、1台のGPUサーバでは搭載できるGPUの数に限りがあるため、複数台のGPUサーバを並べて同時に利用する「GPUクラスタ」を構築する例も増えている。
従来は単一のデータセンター内でGPUクラスタを構築し利用することが主流とされているが、その場合は生成AIのモデルサイズの増大など処理量の変動に応じてオンデマンドにGPUリソースを入手するのが難しい。さらに、利用者の拠点から移動できないような機密性の高いデータの取り扱いも課題となる。
これらの課題に対してNTT Comは、GPUクラスタの利用者や提供事業者を支援するためのコンセプトとして、「GPU over APN」を提案する。GPU over APNでは、IOWN APNの低遅延かつ大容量という特長を生かして複数のデータセンターを接続し、計算資源やデータの適切な分散配置を考慮した柔軟なGPUクラウドを実現するとしている。
NTT ComでIOWN推進室の担当部長を務める張暁晶(ちょう ぎょうしょう)氏は「GPU over APNを実現できれば、企業が抱えているデータを移動できない場合でも、既存のストレージを動かさずに計算のGPUクラスタだけ地理的に離れた場所のものを活用できるようになる。また、1つのデータセンターの床面積や電力供給能力に制限されずに計算資源を利用できるようになる」と利点を説明した。
加えて、他拠点に置いたストレージから高速にデータの読み書きを実施する場合にもIOWN APNは有効だという。
実証実験の概要と結果
実証では、NVIDIA H100 GPU搭載サーバを約40キロメートル離れた三鷹と秋葉原のデータセンタに分散配置し、両拠点間を100ギガビット / 秒 回線のIOWN APNで接続した。各データセンターにはH100 2基の計4ノードを構築。分散学習に対応したNVIDIAの生成AIプラットフォーム「NVIDIA NeMo」を使用してモデルの学習を実施した。
オープンモデルのLLM(Large Language Models:大規模言語モデル)である「Llama 2 7B」を用いて事前学習を行い、処理完了までの所要時間を計算したところ、単一データセンター内での学習の所要時間に対して分散データセンターとAPNの組み合わせでは約1.006倍の処理時間だったという。ほぼ互角であることが明らかになった。なお、従来のインターネット回線を模した環境では28.579倍の時間を要したとのことだ。
次に、遠隔地に置いたストレージにアクセスする実証実験では、GPUサーバからストレージサーバへのNFS(Network File System)アクセスの性能をGPU Direct Storageベンチマークツールであるgdsioにより測定した。その結果、単一データセンターの結果に対し分散データセンターとAPNの組み合わせでは約1.1倍の結果となった。従来のインターネットを模した場合は約2613倍だ。
上記の通り、今回の実証によってGPU-GPU間、およびGPU-ストレージ間のどちらのユースケースにおいても、分散データセンターとIOWN APNの組み合わせによる有用性が確認された。特に、小規模な生成AIモデルの事前学習や追加学習などの比較的軽量な処理においては、分散データセンターであっても単一データセンターと同程度の性能を発揮できることが確認された。
張氏は「今後はより大規模なクラスタへの適用などGPU over APNの実証環境を順次拡大するとともに、GPU利用者と提供者のニーズの具体的な汲み取りなどに着手する。また、実証で得られたノウハウを商用サービスに反映し複合的ソリューションとしての事業化も目指す。実証に興味のあるパートナー企業がいれば共創し共に発展させたい」と今後の展望を述べていた。