XeonとカスタムIPUの協調によりアクセラレータ依存からの転換を狙う

Intelインテル)とGoogleは4月9日(米国時間)、次世代AIおよびクラウドインフラを対象とした複数年にわたる協業を発表した。インテルのXeonプロセッサを中核に据えつつ、両社はカスタムASICベースのInfrastructure Processing Unit(IPU)の共同開発も拡大し、異種混在型AIシステムに求められるシステム全体としての性能、電力効率、スケーラビリティの向上を図ることを目指すという。

AIの進化で見直されつつあるCPUの存在

今回の発表で両社が強調したのは、「AIの拡張は、アクセラレータ単体では成立せず、システムとして動かす必要がある」という考え方だ。これまでにもインテルは、AIエージェント全盛の時代になれば、今以上の演算能力が必要となるが、クラウド/ローカルのハイブリッドAIの処理と同様、データセンター内部でもCPU、GPU、NPU、DPUなど複数種類のプロセッサを活用してAIの処理をニーズに応じた形で振り分けることで最適化を図ることが求められるようになるという主張を行ってきた。実際、生成AIの普及ならびに種類の多様化により、データセンターの構成は急速に複雑化・多様化しており、GPUなどの各種アクセラレータに加え、CPUが担うそれらアクセラレータとのオーケストレーションやデータ処理、システム全体の制御の重要性が再評価されつつある。

Googleは複数世代にわたってグローバルインフラにインテルのXeonプロセッサを採用し、性能、エネルギー効率、TCO(総所有コスト)の改善を進めてきており、最新世代であるXeon 6を活用したC4/N4インスタンスも展開済みで、大規模なAIトレーニングの調整から低レイテンシが要求される推論、そのほか幅広い汎用計算までハイパースケールAI環境におけるより予測可能なパフォーマンスの実現を支えているという。

IPUでCPUの負担を減らしてコンピューティング能力を向上

今回の協業で、Xeonの継続した活用に加えて、もう1つの柱となるのがIPUの共同開発だ。IPUは、ネットワーク、ストレージ、セキュリティといったインフラ処理をホストCPUから切り離して(オフロード)実行するためのプログラマブルなアクセラレータで、ハイパースケールAIデータセンターにおける、より予測可能なパフォーマンスを実現するための鍵となるとインテルでは説明している。

Googleとインテルは、2021年からカスタムASICベースのIPUに関する協業を進めてきたが、今回のパートナーシップにより、この協業を拡大し、IPUを通じてCPUの実効利用率を高め、システム全体としての予測可能な性能と効率の向上を狙うとする。IPUによって従来はCPUが担っていたインフラのタスクをオフロードすることで、CPUと演算アクセラレータ本来の処理能力を引き出すことができるようになり、クラウドプロバイダはシステム全体の複雑さを増すことなく、より効率的にスケールアップを図ることができるようになるという。

CPU×IPU×アクセラレータのバランス設計

両社が描くAIインフラは、GPUをはじめとするさまざまなAIアクセラレータを中心に据えつつも、それを支えるCPUとIPUを含めたヘテロジニアス(異種混在)なシステムとして最適化するアプローチだ。Xeonプロセッサが汎用計算や制御を担い、IPUがインフラ処理を引き受けることで、システム全体のスケール効率と柔軟性を高める。

AIの学習や推論処理でのGPU活用が進む一方、ハイパースケーラー各社がカスタムASICを独自に開発するなど、GPUだけでAI処理を終える状況ではなくなって来ている現在、その振り分けを担うCPUの処理性能がボトルネックになってきているという指摘もあり、Armも自らが設計した「AGI CPU」でそうしたAIデータセンターで求められる高性能CPUニーズへの対応を目指す動きを見せている。背景には、大規模AIクラスタにおけるデータ供給やスケジューリング、通信処理など、GPUでは代替できない処理が増加していることが挙げられ、CPUとインフラ処理、そして各サーバを接続するネットワークの最適化が全体性能を左右する局面に入っているといえる。

インテルとGoogleの今回の協業は、こうした状況に対し、AIを単なる学習/推論の処理という視点ではなく、インフラという視点で見た場合、アクセラレータだけの最適化では不足しており、システム全体で最適化を進める必要があるという方向性を明確に打ち出したものといえる。

次世代AI時代に向けた基盤の構築へ

AIの社会実装が本格化する中で、データセンターには性能だけでなく、電力効率や運用の持続性も強く求められる。インテルでは今回の提携拡大について、AI時代に向けたオープンで拡張性の高いインフラの推進という共通の取り組みを反映したものであるとコメントしており、これからのAIデータセンターのニーズに応えるためのインフラ再設計の一手と言える。これは、生成AI、そしてAIエージェント時代の計算資源の主役が、GPUという半導体デバイスではなく、AIシステム全体となるという考えを示すものとなる。