増える消費電力、DCを狙う黒い影
2023年6月19/20日に「技術とビジネスをつないで新しいことを始めよう」をテーマにしたIntel Connection 2023が開催されました。両日とも午前中の基調講演2つに加え、午後に3×6つの分科会が2日間と合計42の講演がありました。
筆者は基調講演に加えて二日目の分科会6つを聴講しましたが、今回はそのうちサーバーの冷却に関して行われた3つの講演をまとめて紹介します。
サーバーの冷却に関して現在も主流なのが空冷です。昔のサーバールームと言えば全体を冷やしていた上に設定温度も低かったのですが、サーバーの消費電力が上がっている事に加え、全体を冷やすと無駄に電力を使ってしまうという問題があります。
例えば昨年NTT関係の説明会で聞いた話だと、「(環境問題もありますが)電力料金が高騰しているため、冷却にかける電気代を減らさないとデータセンター運営に悪影響を及ぼす」ということもありました。
冷却にかける電力を減らさなければならない理由はもう1つあり、データセンターのリニューアルで高性能サーバーを導入するとセンター消費電力が増える傾向があります。
そこで、インテル株式会社 データセンター・ソリューションズ ビジネス・ディベロップメント・マネージャーのインテルの高木正貴氏は「テレメトリー情報の活用によるデータセンターのサステナビリティー管理」と題した講演を実施。
Intelのデータセンターでは、1990年代の初期のものは42Uのワンラック当たり5kWを消費していましたが、昨年設置された最新のデータセンターは60Uワンラック当たり57kWと11倍以上の電力を消費していると説明がありました。48Uから60Uへとラックの高さも上げていますが、個々のサーバー消費電力が増大しているのは明らか。
一方、Intelの最新データセンターではPUE:1.06を達成。このためにはサーバーの排気口近辺には冷却された空気を入れないアイルキャップだけでなく、外気をそのまま冷却に使用し「屋外気温が36度になるまで冷却器を動かさない」と説明していました(現時点では年間9日程度しか動かさないで済ませているとの事)。
つまり、サーバールームのコールドアイルは36度以下まで許容しており、以前とはサーバールームの設定温度が大きく異なっている事を意味しています。
冷却効率を上げるために「サーマルエンジニア」をチームに据えるDELL
サーバーの電力増大に伴い、空冷に限界があると言われています。これに対して「限界までがんばっている」という説明をしていたのがDELL。
デル・テクノロジーズ株式会社 データセンターソリューションズ 事業統括 製品本部 シニアプロダクトマネージャーの岡野家和氏が「新世代サーバーを支える、サーマルエンジニアの熱い思いと冷却機構」という講演を行いました。
DELLには「革新的で強靭な冷却ソリューションの開発、および部門横断的な協業のリード」を職務とし、「熱科学に重点を置いた機械工学の修士以上」が望ましい要件とされるサーマルエンジニアが在籍しており、日々冷却ソリューションの検討をしていると説明。
具体的な顧客の声として、導入前に各社の製品を比較検討したユーザー企業が「DELLのサーバーが最も消費電力が低かった」というコメントを紹介していました。
一方、IntelだけではなくCPUの消費電力は増加の一途をたどっており、筆者的には「ムーアの法則を性能に全集中している」と感じています。一例として、コンシューマー向けの第13世代Core i9-13900Kは最大消費電力253Wで前世代比141%のマルチスレッド性能ですが、消費電力を65Wに制限しても、12900Kと同等のパフォーマンスであるという説明がありました。
省エネ全振りならばPL2の設定を65Wにすればよいですし、第12世代と同じ241W設定で+37%の性能向上になるのに、さらに爆熱で性能を引き上げようとしているのが今のハイエンド製品の特色と言えます。
サーバー市場で言うと、2009年のNehalem世代ではTDP:100W未満だったのに対し、2023年のSapphire Rapidsこと第4世代Intel XeonSPの最高SKUのTDPは350W。伝統的なサーバーの最小単位である1Uではデュアルソケットサーバーが提供されていますが、「メーカーによってはSapphire Rapidsの1Uサーバーを断念か」と表現。
そこでDELLは、通常片側に寄せて配置するリタンダント電源を左右均等の配置にすることでエアフロ―を最適化するシャーシ設計を行ったスマートシャーシを開発。1UのPowerEdge R660ではスマートシャーシを利用することで、TDP350WのCPUまでは空冷動作が可能と説明していました。
もう1つ興味深かったのは2Uのサーバー。冷却能力は当然2Uの方が上ですが、PowerEdge R760は前世代よりもエアフロ―効率を13%アップさせ、ミッドレンジCPUならば最大52%冷却にかかる電力を削減できると説明していました。
全部漬けてしまえと液浸冷却を進めるKDDI
メジャーな空冷や最近広まりつつある水冷に対して、一時期スーパーコンピューターで使われていたのが液浸冷却です。KDDI株式会社 プラットフォーム技術部 エキスパートの加藤真人氏とKDDI株式会社 プラットフォーム技術部 コアスタッフの北山真太郎氏は、「データセンター内のサーバーを液体冷却、冷却電力の94%減を達成」と題した講演を行いました。
水冷は効率性には優れていますが、ウォーターチラーの設備に加えて、冷却水漏れを起こしにくい構造と漏れ検知の対応が必要となります。これはサーバーが水浸しを想定していないため。水に触れると腐食や漏電が問題になるためです。
これに対して、電気的に不活性な液体に機器ごと漬けて冷やすという冷却方法があります。かつて、CRAY2などのスーパーコンピューターの冷却方法としてフッ素系の冷媒を使用していましたが、製造工場の周辺地域をフッ化物で汚染する公害を発生させていることに加え、各国における有機フッ素化合物(いわゆるPFAS)に対する規制強化もあり、2025年末までに3M社はPFASの生産を全廃。つまり、以前の手段をそのまま使う事はできなくなっています。
ということで、KDDIが注目したのは油冷。2020年から液浸技術の実証実験を進めており、コンテナ型のデータセンターを作り、フェーズ1ではPUE:1.09、フェーズ2でPUE:1.07を確認。従来型のデータセンター比で43%冷却にかかる電力を削減しました。
ここまでの実証実験はコンテナ型でしたが、この技術を大規模なデータセンターにも適用できなければ意味がありません。そこでフェーズ3では茨城県小山にあるデータセンター内の一部を液冷化。100kVA相当のサーバーなどのIT機器を液浸冷却装置で安定稼働させることに成功しました。
フェーズ3ではサーバー類を冷却装置に一括してオイルに漬け込み、そのオイルを冷却するためにCDUを設置。オイルは水で冷却して、水は屋外のフリークーリング装置にて冷やすようになっています。このフェーズ3によって大幅な騒音軽減とPUE:1.05と従来比94%の冷却電力削減に成功しています。
一方で、空冷を前提に製造されているサーバーを液浸冷却をするための課題があったといいます。今回の実証実験ではENEOSの協力によって新型の液浸冷却用オイルを投入。従来のオイルよりも粘度が低く、長期安定性があり、熱交換性にも優れているものです。とはいえ、空気よりも粘性があるので、オイルに合わせたヒートシンクを開発したと発言していました。
そして、冷却に使うオイルが機器に悪影響を与える素材の検証と対策を行った点もポイント。例えば基板の素材であるPVCは湿潤するので使用できない他、空冷で使用しているヒートシンク取り付けに使わているサーマルコンパウンド(いわゆる放熱グリス)も問題になるとのこと。さらに、光ネットワークコネクタも液体の影響を受けるので、樹脂で封入を行ったそうです。
今回の実証実験には多数のメーカーが協力していますが、ここで液浸冷却サーバーが一般化すると、サーバー基板のレイアウトも液浸向けに大きく変化するのではないかと思われます。
一方、メンテナンス時の手間を考えると液浸冷却技術がコンシューマーに降りてくる可能性は低いと思いますが、見た目の面白さという面では液浸に挑戦するMODerが出てくるのではないか? という気もしました。