Marvell、102.4Tbpsスイッチを発表　AIデータセンター向けに電力と遅延を最適化

MarvellがAI専用設計の102.4Tbpsスイッチ「Teralynx T100」を発表従来製品比で最大25％の低消費電力と低遅延を実現 GPUラック120kW時代を見据え、電力とネットワーク効率の最適化を狙う

Marvell Technologyは、AIデータセンター向けに設計された102.4Tbpsスイッチシリコン「Teralynx T100」を発表した。従来のクラウドやエンタープライズ用途を前提としたスイッチとは異なり、AIワークロードに特化したアーキテクチャを採用した点が特徴となる。

AIデータセンターで顕在化する「電力の壁」

AIデータセンターでは、GPUや各種アクセラレータの性能向上に伴い、消費電力の増大が課題となっている。

現在、GPUを多数搭載するサーバーラックは120kW規模に達しつつあり、空冷の限界を超え、液冷などの新たな冷却方式が必要となっている。

こうした中で、ネットワーク機器もラック全体の消費電力の15～25％を占める存在となっており、スイッチの電力効率がデータセンター全体の制約要因の1つとして浮上している。

102.4Tbps世代で「電力最適化」を実現

今回発表されたTeralynx T100は、102.4Tbpsという大容量帯域を実現しながら、消費電力を抑えた設計が特徴となる。

同社によると、競合製品比で最大25％の電力削減を実現し、1000W未満の消費電力で動作するという。これにより、既存の電力インフラの範囲内で、より多くのGPUやアクセラレータを配置できるようになり、AIインフラの拡張性向上につながるとしている。

AI専用設計で低遅延を実現

また、従来のスイッチに含まれていた冗長な機能を排除し、AI処理に必要な機能に特化することで、低遅延化を実現したとするほか、3nmプロセスによるモノリシックな構成を採用することで、電力効率と処理性能を両立しつつ、ネットワークのボトルネックとなる遅延の低減を図ったとする。

AIのトレーニングや推論では、ノード間通信の遅延が性能に直結するため、ネットワークスイッチの性能はシステム全体の効率を左右する要素となる。

さらに、最大512ポートのRadix(ラディックス)に対応することで、AIクラスタにおけるネットワーク階層の削減を可能としており、ネットワークの構成をよりフラットにでき、通信遅延の低減、光接続数の削減、システム全体のコスト低減といった効果を得ることが可能になるとする。特に数万規模のGPUクラスタでは、ネットワーク階層の増加が性能低下の要因となるため、高ラディックスのスイッチの意義は大きいといえる。