推論向け独自AIアクセラレータを開発

Microsoft(マイクロソフト)は1月26日(米国時間)、TSMCの3nmプロセスを採用したAI推論アクセラレータ「Maia 200」を開発したことを発表した。

  • Maia 200のチップ外観

    Maia 200のチップ外観 (出所:Microsoft)

TSMC 3nmプロセスを採用し、FP4で10PFlops超の性能を提供

1400億個を超すトランジスタを搭載し、ネイティブFP8/FP4テンソルコア、7TB/秒の216GB HBM3eと272MBのオンチップSRAMを備えたメモリシステム、大規模モデルにデータを供給し、高速かつ高度に活用するデータ移動エンジンを備えた推論向けAIアクセラレータで、750WのSoC TDPエンベロープ内で、FP4で10PFlops以上、FP8でPFlops以上のパフォーマンスを実現するという。この性能について同社では第3世代Amazon Trainiumの3倍のFP4性能と、Googleの第7世代TPUを上回るFP8性能を備えているほか、現在同社が保有する最新世代のハードウェアと比べて1ドルあたりの推論性能を30%向上させたと説明している。

米国の各リージョンに搭載を開始

Microsoftが米アイオワ州に設置している米国中部データセンターリージョンに導入されているほか、アリゾナ州の米国西部3(West US 3)データセンターリージョンにも順次導入予定で、将来的にはほかのリージョンにも展開する予定だという。同社では、すでにPyTorchとの統合、Tritonコンパイラ、最適化されたカーネルライブラリ、Maiaの低水準プログラミング言語へのアクセスなどを含み、Maia 200向けモデルの構築と最適化に必要なツールを網羅したMaia SDKのプレビュー版も提供済みだとする。

システムレベルでは、標準イーサネット上に構築された、2層スケールアップ型ネットワーク設計を採用し、カスタムトランスポート層と緊密に統合されたNICにより、独自ファブリックに依存せずに、パフォーマンス、高い信頼性、そして高いコストメリットを提供するほか、OpenAIの最新のGPT-5.2モデルを含む複数のモデルをサポートしており、Microsoft FoundryとMicrosoft 365 Copilotにコストパフォーマンスの優位性をもたらすともしている。

ハートウェア的には、各トレイ内では、4台のMaia 200が直接、スイッチを介さないリンクで接続されることで、高帯域幅の通信がローカルに維持され、推論効率を最適化できるようになっているとするほか、ラック内およびラック間のネットワークには、Maia AIトランスポートプロトコルを使用した同じ通信プロトコルが使用されるため、最小限のネットワークホップで、ノード、ラック、アクセラレータクラスタ間でシームレスなスケーリングが可能になるという。

  • Maia 200のブレードサーバ

    Maia 200のブレードサーバ (出所:Microsoft)

なお、同社ではすでに、Tritonコンパイラ、PyTorchのサポート、NPLでの低レベルプログラミング、そしてコードライフサイクルの早い段階で効率性を最適化できるMaiaシミュレータとコスト計算ツールを含む「Maia 200ソフトウェア開発キット(SDK)」を、開発者、AIスタートアップ、学術関係者向けに、早期モデルおよびワークロード最適化の検討に向けた案内を開始したとのことで、SDKに対する登録申し込みWebサイトも提供済みだとしている。