NTTPCコミュニケーションズ(NTTPC)、ゲットワークス、フィックスターズは12月17日、大規模データセンター以外では実現が難しいとされる電力効率の範囲内のpPUE(partial Power Usage Effectiveness)1.114を記録し、コンテナ型データセンターでの水冷GPUサーバの商用での有効性を確認したことを発表した。

検証では、GPU専用コンテナ型データセンターに、水冷GPUサーバの実機での商用動作確認を行い、GPUの安定稼働および性能・電力効率の最適化プロセスを統合的に実証し、運用効率の向上に成功したとのことだ。

背景と課題

企業における生成AIやHPC(High Performance Computing)活用が進み、高性能GPUサーバの需要が急増している。高性能なGPUサーバを稼働させるためには水冷GPUサーバへの対応が求められるが、海外では水冷GPUサーバの商用利用事例が増加している一方で国内では空冷式のデータセンターが主流であり、水冷GPUサーバの事例はまだ少ない。

また、GPUの性能を最大限に引き出すためには、データセンター、GPUサーバ、ソフトウェアの各レイヤでの統合的な連携が必要となるが、現時点では各レイヤの個別最適にとどまる事例が多い。

今回は、こうした課題を解決し水冷GPUサーバ本来の能力を最大限に発揮できる環境を構築するため、コンテナ型データセンターでのPoC(Proof of Concept:概念実証)に共同で取り組んだ。

PoCの内容

コンテナ型データセンターにおいて水冷GPUサーバを稼働させ、データセンター、GPUサーバ、ソフトウェアを統合的に調整した環境下でさまざまな負荷を与え、各種データを計測。さらに、水冷GPUサーバと空冷GPUサーバの性能を比較検証した。

PoCの検証結果

PoCでは、コンテナ型データセンターにおける水冷GPUサーバの商用利用の有効性を確認するとともに、データセンター、GPUサーバ、ソフトウェアの各レイヤでの統合的な連携による運用効率の最大化を実証できた。これにより、水冷GPUサーバで優秀とされるpPUE1.114を記録した。

  • 検証結果

    検証結果

検証では稼働環境をスピーディかつフレキシブルに用意できるコンテナ型データセンターを利用して、水冷GPUサーバ本来の能力を最大限に発揮させることに成功したとのことだ。

コンテナ型データセンター環境下で水冷GPUサーバと空冷GPUサーバの性能を比較した結果、最大負荷時のGPU平均温度が摂氏温度で15度程度低減され、CDU(Coolant Distribution Unit:冷却分配装置)などが 適正に機能していることを確認した。

サーバー負荷と温度をリアルタイムにモニタリングし、InRow空調の制御およびコンテナ内のキャッピングを実施した結果、CDUなどの特定モジュールやデータセンタールームの電力使用効率を示すpPUEを統合的に収集・管理するシステムを構築している。

  • 統合モニタリングシステム

    統合モニタリングシステム