増える消費電力、DCを狙う黒い影

2023年6月19/20日に「技術とビジネスをつないで新しいことを始めよう」をテーマにしたIntel Connection 2023が開催されました。両日とも午前中の基調講演2つに加え、午後に3×6つの分科会が2日間と合計42の講演がありました。

  • インテル株式会社 データセンター・ソリューションズ ビジネス・ディベロップメント・マネージャーのインテルの高木正貴氏

筆者は基調講演に加えて二日目の分科会6つを聴講しましたが、今回はそのうちサーバーの冷却に関して行われた3つの講演をまとめて紹介します。

サーバーの冷却に関して現在も主流なのが空冷です。昔のサーバールームと言えば全体を冷やしていた上に設定温度も低かったのですが、サーバーの消費電力が上がっている事に加え、全体を冷やすと無駄に電力を使ってしまうという問題があります。

例えば昨年NTT関係の説明会で聞いた話だと、「(環境問題もありますが)電力料金が高騰しているため、冷却にかける電気代を減らさないとデータセンター運営に悪影響を及ぼす」ということもありました。

冷却にかける電力を減らさなければならない理由はもう1つあり、データセンターのリニューアルで高性能サーバーを導入するとセンター消費電力が増える傾向があります。

そこで、インテル株式会社 データセンター・ソリューションズ ビジネス・ディベロップメント・マネージャーのインテルの高木正貴氏は「テレメトリー情報の活用によるデータセンターのサステナビリティー管理」と題した講演を実施。

Intelのデータセンターでは、1990年代の初期のものは42Uのワンラック当たり5kWを消費していましたが、昨年設置された最新のデータセンターは60Uワンラック当たり57kWと11倍以上の電力を消費していると説明がありました。48Uから60Uへとラックの高さも上げていますが、個々のサーバー消費電力が増大しているのは明らか。

  • インテルは主に設計、HPC用途として15ヵ所にデータセンターを設置し、総消費電力は103MW。規模が大きいだけに省エネは当然求められます

一方、Intelの最新データセンターではPUE:1.06を達成。このためにはサーバーの排気口近辺には冷却された空気を入れないアイルキャップだけでなく、外気をそのまま冷却に使用し「屋外気温が36度になるまで冷却器を動かさない」と説明していました(現時点では年間9日程度しか動かさないで済ませているとの事)。

つまり、サーバールームのコールドアイルは36度以下まで許容しており、以前とはサーバールームの設定温度が大きく異なっている事を意味しています。

  • 1990年代のDCはPUEが2を超えていたのですが、すぐにPUE:1.4まで改善。2013年以降のGen3世代になるとラック当たりの消費電力が大きく増えていますがPUE:1.06を達成

  • それを可能にしているのが講演タイトルにあるようにテレメトリデータの活用です

冷却効率を上げるために「サーマルエンジニア」をチームに据えるDELL

サーバーの電力増大に伴い、空冷に限界があると言われています。これに対して「限界までがんばっている」という説明をしていたのがDELL。

デル・テクノロジーズ株式会社 データセンターソリューションズ 事業統括 製品本部 シニアプロダクトマネージャーの岡野家和氏が「新世代サーバーを支える、サーマルエンジニアの熱い思いと冷却機構」という講演を行いました。

  • デル・テクノロジーズ株式会社 データセンターソリューションズ 事業統括 製品本部 シニアプロダクトマネージャーの岡野家和氏。本イベントで一番興味深かった講演でした

DELLには「革新的で強靭な冷却ソリューションの開発、および部門横断的な協業のリード」を職務とし、「熱科学に重点を置いた機械工学の修士以上」が望ましい要件とされるサーマルエンジニアが在籍しており、日々冷却ソリューションの検討をしていると説明。

具体的な顧客の声として、導入前に各社の製品を比較検討したユーザー企業が「DELLのサーバーが最も消費電力が低かった」というコメントを紹介していました。

  • サーマルエンジニアのお仕事と要件。コンピューターを効率よく冷却するお仕事です

  • 効率よく、という事でアツイ拡張スロットのみエアを大きく流して効率と冷却性を上げるとのこと

  • 通常、リダンダント電源は片方にまとめて配置されているものですが、エアフロ―を重視すると左右振り分けの方が効率がよいという事に

  • (一つ前の世代の製品ですが)顧客がテストして信頼性と低消費電力でDELLのサーバーを選択したという事例を紹介

一方、IntelだけではなくCPUの消費電力は増加の一途をたどっており、筆者的には「ムーアの法則を性能に全集中している」と感じています。一例として、コンシューマー向けの第13世代Core i9-13900Kは最大消費電力253Wで前世代比141%のマルチスレッド性能ですが、消費電力を65Wに制限しても、12900Kと同等のパフォーマンスであるという説明がありました

省エネ全振りならばPL2の設定を65Wにすればよいですし、第12世代と同じ241W設定で+37%の性能向上になるのに、さらに爆熱で性能を引き上げようとしているのが今のハイエンド製品の特色と言えます。

サーバー市場で言うと、2009年のNehalem世代ではTDP:100W未満だったのに対し、2023年のSapphire Rapidsこと第4世代Intel XeonSPの最高SKUのTDPは350W。伝統的なサーバーの最小単位である1Uではデュアルソケットサーバーが提供されていますが、「メーカーによってはSapphire Rapidsの1Uサーバーを断念か」と表現。

  • 「Intelだけの責任ではない」と言いつつ、サーバー用CPUのTDPが確実に(やや指数関数的に)上昇しているというグラフ。結果として熱的に厳しい1Uサーバーが苦境に

そこでDELLは、通常片側に寄せて配置するリタンダント電源を左右均等の配置にすることでエアフロ―を最適化するシャーシ設計を行ったスマートシャーシを開発。1UのPowerEdge R660ではスマートシャーシを利用することで、TDP350WのCPUまでは空冷動作が可能と説明していました。

もう1つ興味深かったのは2Uのサーバー。冷却能力は当然2Uの方が上ですが、PowerEdge R760は前世代よりもエアフロ―効率を13%アップさせ、ミッドレンジCPUならば最大52%冷却にかかる電力を削減できると説明していました。

  • 最新世代のPowerEdgeではSmart Flowシャーシを投入。1UサーバーでもSapphire Rapidsの最高SKUでも空冷サーバーで対応

  • サーマルエンジニアによる解析図で効果のほどを示していました

  • 空冷だけでなく水冷もしっかり用意していますとのこと。ただ、既存サーバーのリプレースで水冷工事をするのは難しそう

  • 効率の良い冷却を支えるのが管理ソフト。「お客様はDELL以外のサーバーもご利用されます」とのことで、HPE/Lenovoのサーバーにも対応

  • 環境対応のEPEATにサーバーとして初のSilver認定を取っていると環境面もアピール

全部漬けてしまえと液浸冷却を進めるKDDI

メジャーな空冷や最近広まりつつある水冷に対して、一時期スーパーコンピューターで使われていたのが液浸冷却です。KDDI株式会社 プラットフォーム技術部 エキスパートの加藤真人氏とKDDI株式会社 プラットフォーム技術部 コアスタッフの北山真太郎氏は、「データセンター内のサーバーを液体冷却、冷却電力の94%減を達成」と題した講演を行いました。

  • KDDI株式会社 プラットフォーム技術部 エキスパートの加藤真人氏とKDDI株式会社 プラットフォーム技術部 コアスタッフの北山真太郎氏

水冷は効率性には優れていますが、ウォーターチラーの設備に加えて、冷却水漏れを起こしにくい構造と漏れ検知の対応が必要となります。これはサーバーが水浸しを想定していないため。水に触れると腐食や漏電が問題になるためです。

これに対して、電気的に不活性な液体に機器ごと漬けて冷やすという冷却方法があります。かつて、CRAY2などのスーパーコンピューターの冷却方法としてフッ素系の冷媒を使用していましたが、製造工場の周辺地域をフッ化物で汚染する公害を発生させていることに加え、各国における有機フッ素化合物(いわゆるPFAS)に対する規制強化もあり、2025年末までに3M社はPFASの生産を全廃。つまり、以前の手段をそのまま使う事はできなくなっています。

ということで、KDDIが注目したのは油冷。2020年から液浸技術の実証実験を進めており、コンテナ型のデータセンターを作り、フェーズ1ではPUE:1.09、フェーズ2でPUE:1.07を確認。従来型のデータセンター比で43%冷却にかかる電力を削減しました。

ここまでの実証実験はコンテナ型でしたが、この技術を大規模なデータセンターにも適用できなければ意味がありません。そこでフェーズ3では茨城県小山にあるデータセンター内の一部を液冷化。100kVA相当のサーバーなどのIT機器を液浸冷却装置で安定稼働させることに成功しました。

フェーズ3ではサーバー類を冷却装置に一括してオイルに漬け込み、そのオイルを冷却するためにCDUを設置。オイルは水で冷却して、水は屋外のフリークーリング装置にて冷やすようになっています。このフェーズ3によって大幅な騒音軽減とPUE:1.05と従来比94%の冷却電力削減に成功しています。

  • 旧DCの能力アップのために高性能サーバーに入れ替えると電力不足になりがちな上に、省エネ法の改正、電気料金の高騰を考えるとPUEの引き下げ圧力もあるので、新しい冷却方法の採用が必要です

  • 一方、液浸冷却は一社で実現できるものではないため、KDDIはまず三菱重工・NECネッツエスアイとタッグを組み……

  • 最終的には今回のフェーズ3では21社の協業で実現

一方で、空冷を前提に製造されているサーバーを液浸冷却をするための課題があったといいます。今回の実証実験ではENEOSの協力によって新型の液浸冷却用オイルを投入。従来のオイルよりも粘度が低く、長期安定性があり、熱交換性にも優れているものです。とはいえ、空気よりも粘性があるので、オイルに合わせたヒートシンクを開発したと発言していました。

  • 今回は冷却油をENEOSと協力。粘度を下げることでポンプを低電力化。従来はPAO8(いわゆる「100%化学合成油のエンジンオイル」の基油の一種)からさらに低粘度(約3割減)、長寿命、高冷却効率(10%向上)に

そして、冷却に使うオイルが機器に悪影響を与える素材の検証と対策を行った点もポイント。例えば基板の素材であるPVCは湿潤するので使用できない他、空冷で使用しているヒートシンク取り付けに使わているサーマルコンパウンド(いわゆる放熱グリス)も問題になるとのこと。さらに、光ネットワークコネクタも液体の影響を受けるので、樹脂で封入を行ったそうです。

  • 空冷の汎用サーバーを液浸冷却で利用するためには様々な課題が。まず空冷ファンを外し対応FWに変更。これだけで10%の電力を削減。またグリス成分を変更し、耐油性のあるケーブルの選定と事前PoCで判明している液浸で問題のない光ファイバーコネクタを利用

  • ケーブル類もメンテナンス性を上げるためにケーブルガイドパネルやハルタを新規作成。画像を一目見てもスッキリした感じになっています

  • ケーブル類もメンテナンス性を上げるためにケーブルガイドパネルやハルタを新規作成。画像を一目見てもスッキリした感じになっています

  • 動作確認のために簡易液槽を作成したそう

  • zabbix等も利用した統合監視システムで動作状況や異常を把握

  • 空気よりも粘性の高い液体を使うため、ヒートシンクのフィンの厚み、フィンピッチも最適値が異なるため、これも専用に開発

  • 冷媒に影響されやすい素材も検証。問題となったのが両面テープで使われる事の多いアクリル系粘着剤、塩化ビニルとEPDM(エチレンプロピレンゴム:耐候性や耐オゾン性に優れているので電線類で使われることがありますが、耐油性に問題があります)

今回の実証実験には多数のメーカーが協力していますが、ここで液浸冷却サーバーが一般化すると、サーバー基板のレイアウトも液浸向けに大きく変化するのではないかと思われます。

一方、メンテナンス時の手間を考えると液浸冷却技術がコンシューマーに降りてくる可能性は低いと思いますが、見た目の面白さという面では液浸に挑戦するMODerが出てくるのではないか? という気もしました。