インテルは米国時間の11月9日、HPCやAI用途向けCPU/GPUの新しい製品ファミリーとして、「Intel Maxシリーズ」を発表した。競合製品比で4.8倍高速という広帯域メモリを搭載したCPU「Intel Xeon Max」と、同社最高密度のGPU「Intel Max GPU」で、発売は2023年1月の予定。Maxシリーズは米アルゴンヌ国立研究所のスパコン「Aurora」への採用が進められている。

  • HPU向け「Intel MAXシリーズ」発表、HBM搭載CPU「Xeon Max」と高密度GPU「Max GPU」

    Xeon Maxのパッケージ。これまでSapphire Rapidsの開発コード名で知られていたHPU向けCPUだ

開発コード名「Sapphire Rapids HBM」こと「Xeon Max」

Xeon Maxは、Sapphire Rapidsの開発コード名で知られていたCPUで、Sapphire Rapidsのなかでも、HBM(広帯域メモリ)をパッケージ上に搭載したものを今回のXeon Maxとして製品化した。同社ではXeon Maxを「HBMを搭載した最初で唯一のx86ベースのプロセッサ」としており、これによりコードを変更することなく多くのHPCワークロードを高速化できるとしている。HPU/AIのワークロードで、メモリ帯域の狭さがボトルネックになりがちだったことに対応した格好だ。

  • CPUパフォーマンスが伸びる一方で、メモリ帯域がボトルネックになってきている

主な仕様は、最大56基のパフォーマンスコア(Golden Coveコア)を搭載、最大最大1TB/秒の帯域を実現したHBM2eメモリを最大64GB搭載、TDPは最大350Wといったもの。Xeon MaxのCPUパッケージ上には4基のタイル(ダイ)が実装されており、それぞれに14基のパフォーマンスコア、計56基のGolden Coveという構成だ。Sapphire Rapidsの最大仕様では1タイルあたりGolden Cove×15基なので、最大60基も設計上は可能と見られる。各タイル間はIntelのマルチダイ相互接続ブリッジ技術「EMIB」で接続されている。

  • Xeon Maxの主な特徴

  • HBMとDDRメモリの構成で実行するための柔軟性も特徴としており、高速なHBM Onlyのほか、容量を稼ぐHBM Flat、HBMをDDRのキャッシュとし容量と性能のバランスをとるHBM Cachingの3つのメモリ動作モードを使うことができる

  • Xeon Maxのブロック図

  • こちらはパフォーマンスコアの構成

性能については、実際のHPCワークロードにおいて、競合製品と比較して最大4.8倍としており、同社調べでは、AMDの「Milan-X (第3世代EPYC)」とワークロードベンチマークで比較した場合に、気候モデリング計算で2.4倍の速度、分子動力学計算で2.8倍の性能向上を実現したという。また、68%少ない電力使用量で同じ性能を発揮できると、電力効率の高さもアピールしている。

  • 従来のXeonや、競合AMDのEPYCとの性能比較

  • スライドのメッセージはHBM+XeonがHPUとAIのコミュニティに貢献するだろうというもので、理化学研究所 計算科学研究センターの松岡聡 センター長から。理研のスパコン富岳はHBMを採用している

開発コード名「Ponte Vecchio」こと「Max GPU」

Max GPUは、Ponte Vecchioの開発コードネームや、Xe HPCのアーキテクチャ名でこれまでにも存在が知られていたGPUで、既に「Intel Data Center GPU」として、ファーストカスタマーという位置づけで米アルゴンヌ国立研究所(のAurora用)への出荷開始が発表されていたものだ。

  • Max GPUのPCI Expressカード

Max GPUのGPUパッケージ上には、1,000億個以上のトランジスタによる47基ものタイル(ダイ)が組み込まれており、最大128GBのHBM2eも搭載した、同社で「最高密度のプロセッサ」となる。Xeコア数は最大128基。演算スループットはFP64/FP32で52TFLOPS、FP16で104TFLOPSに達するという。

  • Max GPU(Xe HPC)の特徴とブロック図。128基のXeコアを搭載している

  • Xe HPCアーキテクチャのXeコアの構成。コンシューマにも馴染みのあるIntel ARCなどのXe HPGアーキテクチャと比べると、Vector EngineとMatrix Engineが共に8基に半減しているが、Vector Engineは512bit長、Matrix Engineは4096bit長とワイド化している

  • Max GPUの演算スループットのピーク値

  • Xe Linkを用いたGPU間の接続

なおMax GPUには、以下の3モデルの製品ラインナップが公開されている。

  • Max Series 1100 GPU : 56基のXeコアと48GBのHBM2eメモリを搭載。TDP300W。PCIeカード(2スロットサイズ)。Intel Xe Linkブリッジを介して複数のカードを接続可能。
  • Max Series 1350 GPU : 112基のXeコアと96GBのHBMを搭載。TDP450W。OAMモジュール(OCP Accelerator Module)。
  • Max Series 1550 GPU : 128基のXeコアと128GBのHBMを搭載、TDP600W。OAMモジュール(OCP Accelerator Module)。
  • Max Series 1100はPCIeカードで提供

  • Series 1350とMax Series 1550

また発表では、今回のMax GPU(Ponte Vecchio)の後継として、「Rialto Bridge」(開発コード名)への言及もあった。この第2世代のXe HPCは、2024年のリリース予定だそうだ。Rialto Bridgeに続いては、Xeコアとx86コアを1つのパッケージに統合した「XPU」(開発コード名: Falcon Shores)をHPC向けにリリースするとしている。

  • 新しく公開されたHPC向けプロセッサのロードマップ。「Rialto Bridge」と「Falcon Shores」への言及があった

  • Rialto BridgeはPonte Vecchioの後継。第2世代のXe HPCとなる

  • Falcon ShoresではXeコアとx86コアを1つのパッケージに統合する。Sapphire RapidsとRialto Bridgeをまとめて代替する感じのようだ