2025年、あらゆる業界でAI技術の導入が広がろうとしている。並行して拡大するAI対応のデータセンターは、ますますその高密度化が加速し、ニーズの変化によって使われる技術も進歩が著しい。この連載では、かつてないほどにデータセンター業界が注目を浴びる今、求められるテクノロジーの変化やトレンドを追ってみたい。
レガシーサーバの10倍電力を消費するAIサーバ
AIシステムを導入する際には、知能を獲得するためのトレーニング(学習)が必要になるが、そのトレーニングに必要な電力消費は非常に大きなものになることが懸念されている。
例えば、検索処理に関わる消費電力をAIシステムとレガシーシステムで比較した場合、レガシーシステムの0.3Whに対して、AIシステムは10倍の3Whを消費するという調査結果がある。一方で、今後はAIのシステム自体も多様化していくと見られている。膨大な電力を消費する大規模なトレーニングモデルから、いわゆるエッジと呼ばれる、ユーザーの近くに置かれる小規模環境導入用の圧縮された推論モデルまで、さまざまな用途や規模のAIシステムが広まっていくだろう。今後は、こうしたAI時代に対応できる、新たなデータセンター向けの多様な設備やインフラ、管理・運用手法の構築が必要になると考えられる。
並列処理のために集積されるAIサーバ
トレーニングに必要なAIサーバは、大規模なデータセンターに集中的に導入されることになる。なぜなら、トレーニング情報をサーバ間でやり取りするには、超高速な通信速度が求められるからだ。そのため、AIサーバに搭載されるGPUは、独自のネットワークポートとケーブルを使って、大量のプロセッサを並列接続する。そして、トレーニングの際のデータ遅延を避けるために、複数のAIサーバがマウントされたラックが1カ所に集められる。
このように集められたAIサーバのラックは、4ラックや8ラックというクラスター構成で展開されることが一般的だ。そうなると、1ラックあたりの密度や負荷のかかり方が従来とは大きく異なってくる。例えば、AIサーバがマウントされたラックをクラスター構成にした場合、8ラックで約800kWくらいの電力が必要になる。1ラックあたり約100kWである。一方で、AI以外の用途で使われるレガシーサーバの場合、1ラックあたり8から10kWくらいの電力しか消費しない。したがって、AIサーバは、レガシーサーバと比べて消費電力が10倍くらいになると見られ、これはAIサーバの8ラック程度のクラスター構成でも、レガシーサーバの100から150ラックに相当することになる。
AIのトレーニングにおいて、サーバにそこまでの電力が必要な理由の1つは、演算処理の違いにある。AIのトレーニングでは、24時間365日、休むことなく演算処理を続けている。それに対してレガシーサーバは、処理に応じて負荷が変動するし、例えば業務の内容によって月末は忙しいが月中はそうでもないといった変動や、夜間など社員の勤務時間外は負荷が下がったりする。AIのトレーニングに関しては、そういう変動は一切なく、同じ負荷で動き続けるので、常に最大の電力使用量を必要とすることになる。
AIサーバ用ラックに求められる電力の供給と熱の除去
こうした用途に求められる超高密度環境では、電力網からチップへ電力を供給する「Grid to Chip」と、チップから熱をチラーに放出する「Chip to Chiller」という2つのコンセプトにおいて課題が生じる。
「Grid to Chip」では、大量の電力を供給する高容量化によって、配電デバイスの変化に対応する必要がある。例えば、従来は単相の100Vで十分だった電圧を200Vの三相にすると、コンセントの形やケーブルの太さも変わってくる。高電圧になれば故障や事故のリスクも上がるので、オペレーションも複雑になる。
一方、AIサーバをマウントした場合は、空気で冷やせる限界といわれる1ラック当たりの電力容量が50kWを超え100kWに達する。したがって、「Chip to Chiller」で発生する大量の熱の除去への対応に関しては、より高効率な液体による冷却設備の検討も必要になってくる。
このような高容量の電力供給と液体冷却を考えると、従来の一般的なデータセンターシステムでは対応が難しくなり、さまざまなコンポーネントを入れ替える必要が出てくる。さらに、冷却システムなどの設備が変わることによって、データセンターの運用や監視、設計などについても、ほぼすべて変更が必要となる。
そこには、電気から冷却、設備面まで幅広い課題がある。まず、電気的な影響としては、配電方式の変更や配電のブロックサイズの増加・分散化がある。その上で、温度上昇によって、あらゆるデバイスのコードが高温で溶けないように対応しなければならない。また、アークフラッシやブレーカートリップといった、電気的な事故に対しても防止策が必要だ。
さらに、液体冷却システムを導入する場合、それを前提とした設計面の変更や対応はもちろんだが、液漏れのリスクをどうやって検出、回避するのかといったオペレーション面の対策も必要になり、冷媒の選定や長期的なメンテナンス、将来の設備拡張や更なる高密度化への備えなど、さまざまな視点を持たなければならない。
とはいえ、液体冷却の技術も日々進化しているため、現時点で何がデファクトなのかを決めることは誰にとっても難しいだろう。標準化された設計や技術がまだ確立されていないということは、運用やメンテナンスについてのスキルを持つ人も、現時点では少ないと考えられる。
AI時代の複雑なデータセンター運用に備えよ
設備や設計、運用面の影響に関しても、いろいろと課題がある。GPUが搭載されたAIサーバは、レガシーサーバと比べて奥行きが長くなり、現状の標準ラックでは納まりきらない。また、AIサーバ自体の高重量化や液体冷却システムによる重量増加によって、ラックの耐荷重を超えてしまう可能性もある。さらに、現状のフリーアクセスに対応した二重床も、耐荷重にリスクがある。
極端な電力密度と需要は、設計も困難にする。現在どのくらい電力を使っているのかをリアルタイムに把握することが難しく、電力需要の正確な将来予測にも困難がある。そして運用に関しては、電圧が高くなるとエラーの許容範囲が狭くなり、運用のリスクが上昇する。
こういったさまざまな課題に対応するため、シュナイダーエレクトリックではNVIDIAとパートナーシップを組み、NVIDIAのGPUを搭載したサーバ用の冷却や、電力の影響を考慮したリファレンスデザインを提供している。
運用面の課題は、AIを活用したソフトウェアが鍵を握ると考えられている。シュナイダーエレクトリックでもデータセンターの運用の最適化を図り、あらゆる監視・管理を自動化できるソフトウェアの提供を進めている。これまでハードウェアを中心にデータセンターインフラを支えてきたメーカーとして、ソフトウェアやサービスまで含む統合的なインフラソリューションによって、顧客のデータセンターが持続可能でありながら、柔軟でハイパフォーマンスなものとなるよう支援している。
また、NVIDIAだけでなく、GoogleやMicrosoftなどハイパースケーラーと呼ばれるプレーヤーたちが集まったコンソーシアムにもシュナイダーエレクトリックは参加している。そこでは、主要なAIプレーヤーとのワークショップを経てさまざまなマイルストーンが検討され、AIを使ってサステナブルなデータセンターに近づけるためのディスカッションも進められている。今後も、標準化されたスケーラブルかつ高密度に対応するアーキテクチャの探索などが積極的に進められていく方針だ。
AIのための高密度化が進むことで、逆にAIによって加速度的に技術進歩が進むという、今までになかったサイクルが生まれている。シュナイダーエレクトリックとしては、データセンター業界においてエネルギー消費に直結するファシリティソリューションを提供してきたという、ユニークな立場から業界動向を注視している。
次回からは、AI対応データセンターで注目される新たな技術トレンドや、より具体的なソリューションについて紹介していきたい。