米IBMは12月9日(現地時間)、データセンターにおける生成AIモデルの学習・推論を改善する可能性のある光パッケージング技術のブレークスルーについて発表した。次世代の光パッケージング技術であるCo-Packaged Optics(CPO)のための新しいプロセスとして、データセンター内の既存の近距離電気配線を補完する光技術の導入を可能にしたという。

同社の研究者は、世界初となる成功が公表されたポリマー光導波路(PWG)の設計・組み立てを通じ、CPOがコンピューティング業界におけるチップ間、回路基板間、サーバ間での広帯域伝送を再定義し得ることを示したとのことだ。

新技術の概要と効果

現在、光ファイバー技術は長距離にわたってデータを高速で伝送し、電気の代わりに光で商業・通信などのトラフィックを支えており、データセンターは外部通信ネットワーク用に光ファイバー技術を使用しているが、ラック間の通信は大半が銅の電気配線となっている。

電気配線は、GPUアクセラレーターに接続されるものの、GPUアクセラレーターは半分以上の時間はアイドル状態であり、大規模な分散学習プロセス時には他のデバイスからの信号を待つため、膨大な費用とエネルギーを消費する。

同社の研究者は、オプティクスの速度と容量をデータセンター内に持ち込む方法を実証。技術論文において、新しいCPOプロトタイプモジュールはデータセンター内の通信の帯域幅を拡大し、GPUのアイドリングタイムを最小化しつつ、AIの処理能力を向上させる可能性を示唆している。

  • CPOプロトタイプモジュールの外観

    CPOプロトタイプモジュールの外観

具体的には生成AIのスケーリングにおける低コスト化により、データセンター内のケーブルの長さは1メートルから数百メートルに延伸する一方、ミッドレンジの電気配線と比較して消費電力は5分の1以下にするという。

また、従来の電気配線と比較して最大5倍高速にLLM(大規模言語モデル)を学習でき、CPOにより、標準的なLLMの学習にかかる時間が3カ月から3週間に短縮し、大規模なモデルと多くのGPUを使用することでパフォーマンスの向上を図ることができるとのこと。

さらに、1つのAIモデルの学習ごとに米国の5000世帯の年間消費電力に相当する電力を節電できるなど、データセンターの電力効率を向上させることを可能としている。

アクセラレーター間のインターコネクト密度の拡張を目指す技術

近年、チップ技術の進展でトランジスタの高密度集積化が可能になっており、IBMの2nmノードのチップは500億個以上のトランジスターを集積できるという。CPOテクノロジーは、チップメーカーがアクセラレーター間に電気配線の性能限界を超える光通信用配線を追加できるようにすることで、アクセラレーター間のインターコネクト密度の拡張を目指している。

同社の論文では、これらの新しい高密度光通信構造に光波長多重通信技術を組み合わせることにより、電気配線と比較してチップ間通信の帯域幅が最大80倍向上する可能性があることに言及。

現在の最先端のCPO技術と比較して、チップメーカーは「beachfront density」と呼ばれるシリコンフォトニクスチップの端面に6倍の光ファイバーを配線できるようになるとしている。

各光ファイバーは、人の髪の毛の約3倍ほどの幅であり、長さは数センチから数百メートルに及び、1秒間に数テラビットのデータを通信。同社は標準的なアセンブリパッケージングプロセスを用いて、50マイクロメートルピッチの高密度のポリマー光導波路をシリコンフォトニクス導波路にアディアバティック結合させたとのことだ。

さらに、論文では50マイクロメートルピッチの高密度のポリマー光導波路が、量産時に必要なストレステストを初めて合格。コンポーネントはマイナス40度から125度の範囲の高温・高湿度環境テストを合格し、機械強度テストにおいても光インターコネクトが物理的な破壊やデータ損失なく合格したという。

また、研究者たちは18マイクロメートル・ピッチの高密度のポリマー光導波路も実証し、4本のポリマー光導波路を積層することで、最大128チャンネルの接続も実現できるとしている。

CPOは、今後も増大するAIが要求する処理能力を満たすためのものであり、オフモジュール通信を電気配線から光配線に置き換える可能性があるとの見解だ。