OpenAI、GPUクラスター効率化の新プロトコル「MRC」を発表

OpenAIが5月5日、GPUクラスターのネットワーク効率を大幅に改善する新プロトコル「MRC(Multipath Reliable Connection)」を発表した。AMD、Broadcom、Intel、Microsoft、NVIDIAとの2年がかりの共同開発の成果であり、最新の800Gb/sネットワークインタフェースに実装されている。仕様はOpen Compute Project(OCP)を通じてオープンライセンスで公開された。

OpenAIによると、MRCが解決するのは大規模GPUクラスターにおける2つの根本的な課題だ。1つ目はネットワーク輻輳(ふくそう)である。「アダプティブ・パケットスプレイング」技術により、単一の転送を数百の経路に同時分散させ、特定リンクへの集中を防ぐという。

2つ目は障害対応だ。ネットワーク経路の障害をマイクロ秒単位で検知・迂回することで、トレーニングを中断せず継続できる。さらにSRv6(IPv6 Segment Routing)による静的ソースルーティングを組み合わせ、スイッチ側のルーティング処理負荷を軽減する設計となっている。

MRCの技術的な特徴として、800Gb/sのネットワークインターフェースを複数の小容量リンクに分割し、並列ネットワーク(プレーン)を構成する点が挙げられる。例えば1インターフェースを8分割して100Gb/s×8プレーンとすることで、スイッチ1台あたりの接続ポート数が64から512に拡大する。この結果、約13万1000基のGPUをスイッチ2階層のみで接続できる。従来の800Gb/sネットワークでは3～4階層が必要だった。

MRCのマルチプレーン・ネットワークへの対応により、わずか2階層のスイッチで10万台以上のGPUを接続することが可能。これにより、従来のアプローチと比較して、必要な電力、故障の可能性があるコンポーネントの数、およびネットワークの総コストを削減できるという

OpenAI ワークロードリードであるGreg Steinbrecher氏はThe Deep Viewに対し、従来の大規模AIトレーニングは「障害増幅装置」だと指摘する。一箇所で問題が起きれば連鎖的に処理が止まり、GPUがアイドル状態になるためだ。MRCはこうした課題を回避し、「研究パイプライン全体を大幅に高速化できる」と述べている。

MRCはすでにOpenAIの大規模トレーニングクラスターである、テキサス州AbilenのOracle Cloud Infrastructure(OCI)サイトと、MicrosoftのFairwaterスーパーコンピュータで稼働中であり、複数のフロンティアモデルのトレーニングに使用されている。OpenAIはMRCを「差別化の手段ではなく業界全体のボトルネックを解消するもの」と位置づけており、Stargateをはじめとする超大規模クラスターを効率的に運用するための基盤として、業界標準の確立を目指している。