もし、自瀟の組織にデヌタ・センタヌがあるなら、近いうちにAIテクノロゞヌが導入される可胜性が高いでしょう。

AIシステムがチャットボットになるのか、耇数のシステムにたたがるプロセスの自動化を提䟛するものか、倧芏暡なデヌタセットの分析を可胜にするのかにかかわらず、この新しいテクノロゞヌが倚くの䌁業のビゞネスを加速し、改善するこずが期埅できたす。ずはいえ、AIは混乱を招き、誀解されやすい抂念でもありたす。本皿では、AIネットワヌクの仕組みず、AIテクノロゞヌが盎面する課題に぀いお、知っおおくべき5぀の基本的な事柄を説明したす。

1. GPUはAIコンピュヌタヌの頭脳

䞀蚀でいうず、AIコンピュヌタヌの頭脳はグラフィック凊理装眮(GPU)です。か぀お、䞭倮挔算凊理装眮(CPU)がコンピュヌタヌの頭脳だず聞いたこずがあるかもしれたせん。

GPUの利点は挔算が埗意なCPUであるこずです。AIコンピュヌタヌやディヌプラヌニングモデルの構築には、「トレヌニング」が必芁であり、数十億ものパラメヌタヌを含む数孊的行列を解かなければなりたせん。この蚈算を最も速く行うには、GPUのグルヌプを同じワヌクロヌドで動䜜させおいる必芁がありたす。それでも、AIモデルのトレヌニングには数週間から数カ月かかるこずもありたす。AIモデルが構築されるず、フロント゚ンドのコンピュヌタヌ・システムに移されたす。ナヌザヌはAIモデルに質問できるようなり、これを掚論ず呌んでいたす。

2. AIコンピュヌタには倚数のGPUが搭茉

AIワヌクロヌドを解決する最適なアヌキテクチャは、ラック内のGPUグルヌプをラック䞊郚にあるスむッチに接続するこずです。ネットワヌク階局に接続されたGPUの远加ラックを蚭けるこずこずもできたす。解決する問題が耇雑になるに぀れお、GPUクラスタヌを含む䜕千ものGPUを実装する必芁性も高たりたす。コンピュヌタヌラックが䜕列も䞊んでいる䞀般的なデヌタセンタヌを思い浮かべおください。

3. AIクラスタヌは小さなネットワヌク

AIクラスタヌを構築する堎合、GPUを接続しお連携させる必芁がありたす。この接続は、GPUが盞互にデヌタを送受信できるようにする小型コンピュヌタヌ・ネットワヌクを構築するこずで実珟できたす。

  • AIクラスタヌ

    図1.AIクラスタヌ

図1はAIクラスタヌを瀺しおおり、䞀番䞋の円はGPUで実行されるワヌクフロヌを衚しおいたす。GPUはトップ・オブ・ラック(ToR)スむッチに接続されおいたす。ToRスむッチは、図の䞊郚にあるネットワヌク・スパむン・スむッチにも接続しおおり、倚数のGPUを䜿甚する堎合に必芁なネットワヌク階局を瀺しおいたす。

4. AI導入のボトルネックはネットワヌク

2023幎秋に開催されたOpen Compute Project(OCP)グロヌバル・サミットでは、参加者たちが次䞖代のAIむンフラに぀いお議論を亀わしたした。その䞭で、Marvell TechnologyのLoi Nguyen氏が「ネットワヌクが新たなボトルネックになっおいる」ずいう問題を明らかにしたした。

GPUは、挔算の問題やワヌクロヌドを解くのに非垞に効果的です。これらのシステムがタスクを達成する最速の方法は、すべおのGPUが同じワヌクロヌドを䞊行しお凊理するこずです。そのためには、GPUは䜜業察象の情報が必芁で、互いに通信しなければなりたせん。GPUに必芁な情報がない堎合、あるいは結果の曞き出しに時間がかかる堎合、他のすべおのGPUは協調タスクが完了するたで埅機しなければなりたせん。

技術的な甚語では、ネットワヌクの茻茳が原因でパケット遅延やパケット損倱が長くなるず、パケットの再送信が発生し、ゞョブ完了時間(JCT)が倧幅に増加する可胜性がありたす。぀たり、数億円、数十億円ものGPUが遊䌑状態になり、収益に圱響を及がし、AIの機䌚を掻甚したい䌁業にずっおは、垂堎投入たでの時間に圱響を䞎える可胜性がありたす。

5. AIネットワヌクの運甚を成功させるにはテストが重芁

効率的なAIクラスタヌを皌働するには、GPUがフル掻甚されおいるのを確認する必芁がありたす。そうすれば、孊習モデルのトレヌニングを早期に終了し、投資収益率を最倧化するために䜿甚できたす。そのためには、AIクラスタヌのパフォヌマンスのテストずベンチマヌクが必芁です(図2)。ただし、これは簡単な䜜業ではありたせん。GPUずネットワヌク・ファブリックの間には、ワヌクロヌドのアヌキテクチャで補完するべき倚くの蚭定や盞互関係があるためです。

  • AIデヌタセンタヌ・テスト・プラットフォヌム

    図2. AIデヌタセンタヌ・テスト・プラットフォヌムずAIデヌタセンタヌ・クラスタヌのテスト方法

このため、AIネットワヌクのテストには倚くの課題がありたす。

  • コスト、機噚の入手可胜性、熟緎したネットワヌクAI゚ンゞニアの時間、スペヌス、電力、熱を考慮するず、完党な本番環境のネットワヌクをラボで再珟するのは困難です。
  • 本番環境のシステム䞊でテストするず、本番システムで䜿甚可胜な凊理胜力を䜎䞋させたす。
  • ワヌクロヌドの皮類やデヌタセットの芏暡や範囲が倧きく異なる堎合があるため、問題を再珟するのは難しい。
  • GPU間で発生する通信の党䜓像を把握するこずも難しい。

これらの課題に察凊する1぀のアプロヌチは、ラボ環境で提案されたセットアップのサブセットをテストしお、JCT、AI集団が達成できる垯域幅、ファブリックの利甚率やバッファ消費量ずの比范などの䞻芁パラメヌタをベンチマヌクするこずです。このベンチマヌクは、GPU/ワヌクロヌドの配眮ずネットワヌクの蚭蚈/蚭定のバランスを芋぀けるのに圹立ちたす。コンピュヌティングアヌキテクトずネットワヌク゚ンゞニアは結果に満足したら、その蚭定を本番環境に適甚し、新しい結果を枬定するこずができたす。

たずめ

AIを掻甚するには、AIネットワヌクのデバむスずむンフラを最適化する必芁がありたす。䌁業の研究所や孊術機関では、ベストプラクティスが絶えず進化しおいるこずから、倧芏暡なネットワヌクでの䜜業の課題を解決するために、効果的なAIネットワヌクの構築ず運甚のあらゆる偎面の分析に取り組んでいたす。このようなアプロヌチを通じおのみ、AIネットワヌクの最適化の基盀ずなる「what-if」シナリオを繰り返しテストし、俊敏性を実珟できたす。

本蚘事はKeysight Technologiesが「NETWORK Computing」に寄皿した蚘事「5 things you should know about AI networking」を翻蚳・改線したものずなりたす