AIネットワークについて知っておくべき5つのこと

もし、自社の組織にデータ・センターがあるなら、近いうちにAIテクノロジーが導入される可能性が高いでしょう。

AIシステムがチャットボットになるのか、複数のシステムにまたがるプロセスの自動化を提供するものか、大規模なデータセットの分析を可能にするのかにかかわらず、この新しいテクノロジーが多くの企業のビジネスを加速し、改善することが期待できます。とはいえ、AIは混乱を招き、誤解されやすい概念でもあります。本稿では、AIネットワークの仕組みと、AIテクノロジーが直面する課題について、知っておくべき5つの基本的な事柄を説明します。

1. GPUはAIコンピューターの頭脳

一言でいうと、AIコンピューターの頭脳はグラフィック処理装置(GPU)です。かつて、中央演算処理装置(CPU)がコンピューターの頭脳だと聞いたことがあるかもしれません。

GPUの利点は演算が得意なCPUであることです。AIコンピューターやディープラーニングモデルの構築には、「トレーニング」が必要であり、数十億ものパラメーターを含む数学的行列を解かなければなりません。この計算を最も速く行うには、GPUのグループを同じワークロードで動作させている必要があります。それでも、AIモデルのトレーニングには数週間から数カ月かかることもあります。AIモデルが構築されると、フロントエンドのコンピューター・システムに移されます。ユーザーはAIモデルに質問できるようなり、これを推論と呼んでいます。

2. AIコンピュータには多数のGPUが搭載

AIワークロードを解決する最適なアーキテクチャは、ラック内のGPUグループをラック上部にあるスイッチに接続することです。ネットワーク階層に接続されたGPUの追加ラックを設けることこともできます。解決する問題が複雑になるにつれて、GPUクラスターを含む何千ものGPUを実装する必要性も高まります。コンピューターラックが何列も並んでいる一般的なデータセンターを思い浮かべてください。

3. AIクラスターは小さなネットワーク

AIクラスターを構築する場合、GPUを接続して連携させる必要があります。この接続は、GPUが相互にデータを送受信できるようにする小型コンピューター・ネットワークを構築することで実現できます。

図1.AIクラスター

図1はAIクラスターを示しており、一番下の円はGPUで実行されるワークフローを表しています。GPUはトップ・オブ・ラック(ToR)スイッチに接続されています。ToRスイッチは、図の上部にあるネットワーク・スパイン・スイッチにも接続しており、多数のGPUを使用する場合に必要なネットワーク階層を示しています。

4. AI導入のボトルネックはネットワーク

2023年秋に開催されたOpen Compute Project(OCP)グローバル・サミットでは、参加者たちが次世代のAIインフラについて議論を交わしました。その中で、Marvell TechnologyのLoi Nguyen氏が「ネットワークが新たなボトルネックになっている」という問題を明らかにしました。

GPUは、演算の問題やワークロードを解くのに非常に効果的です。これらのシステムがタスクを達成する最速の方法は、すべてのGPUが同じワークロードを並行して処理することです。そのためには、GPUは作業対象の情報が必要で、互いに通信しなければなりません。GPUに必要な情報がない場合、あるいは結果の書き出しに時間がかかる場合、他のすべてのGPUは協調タスクが完了するまで待機しなければなりません。

技術的な用語では、ネットワークの輻輳が原因でパケット遅延やパケット損失が長くなると、パケットの再送信が発生し、ジョブ完了時間(JCT)が大幅に増加する可能性があります。つまり、数億円、数十億円ものGPUが遊休状態になり、収益に影響を及ぼし、AIの機会を活用したい企業にとっては、市場投入までの時間に影響を与える可能性があります。

5. AIネットワークの運用を成功させるにはテストが重要

効率的なAIクラスターを稼働するには、GPUがフル活用されているのを確認する必要があります。そうすれば、学習モデルのトレーニングを早期に終了し、投資収益率を最大化するために使用できます。そのためには、AIクラスターのパフォーマンスのテストとベンチマークが必要です(図2)。ただし、これは簡単な作業ではありません。GPUとネットワーク・ファブリックの間には、ワークロードのアーキテクチャで補完するべき多くの設定や相互関係があるためです。

図2. AIデータセンター・テスト・プラットフォームとAIデータセンター・クラスターのテスト方法

このため、AIネットワークのテストには多くの課題があります。

コスト、機器の入手可能性、熟練したネットワークAIエンジニアの時間、スペース、電力、熱を考慮すると、完全な本番環境のネットワークをラボで再現するのは困難です。
本番環境のシステム上でテストすると、本番システムで使用可能な処理能力を低下させます。
ワークロードの種類やデータセットの規模や範囲が大きく異なる場合があるため、問題を再現するのは難しい。
GPU間で発生する通信の全体像を把握することも難しい。

これらの課題に対処する1つのアプローチは、ラボ環境で提案されたセットアップのサブセットをテストして、JCT、AI集団が達成できる帯域幅、ファブリックの利用率やバッファ消費量との比較などの主要パラメータをベンチマークすることです。このベンチマークは、GPU/ワークロードの配置とネットワークの設計/設定のバランスを見つけるのに役立ちます。コンピューティングアーキテクトとネットワークエンジニアは結果に満足したら、その設定を本番環境に適用し、新しい結果を測定することができます。

まとめ

AIを活用するには、AIネットワークのデバイスとインフラを最適化する必要があります。企業の研究所や学術機関では、ベストプラクティスが絶えず進化していることから、大規模なネットワークでの作業の課題を解決するために、効果的なAIネットワークの構築と運用のあらゆる側面の分析に取り組んでいます。このようなアプローチを通じてのみ、AIネットワークの最適化の基盤となる「what-if」シナリオを繰り返しテストし、俊敏性を実現できます。