Zen 5 RyzenにRyzen AI、EPYCとInstinctもあったAMD COMPUTEX基調講演Update

すでに事前資料によるAMDの基調講演レポートは掲載されているが、実際の基調講演で行われた追加情報をまとめてご紹介したい。

まずZen 5ベースのRyzen 9000シリーズ及びRyzen AI 300シリーズに関しては、残念ながら大きな追加情報はなかった。これに関してはもう少しお待ちいただきたい。ただ情報のUpdateがあり、まずこのスライドであるが、対抗馬はCore Ultra 9 185HではなくCore Ultra 7 155Hとのことであった。

それとBlock FP16の効果が今回示された。Stable Diffusionで"A beautiful dessert waiting to be shared by two people"を与えた場合の結果がこちら(Photo01)。Block FP16はFP16と同等の結果になることが示されている。

Photo01: なんかINT8の方、ケーキと言われればケーキかな？という感じの、ちょっと謎なものになっている。

さてここからは先の基調講演レポートに含まれなかった話を。まずはEPYCであるが、2018年のEPYC発表時には2%のシェアでしかなかったEPYC、直近では33%までシェアを増やしている。ちなみにこれはRevenue Shareであって、数量でいえばもう少し数字が下がるものと思われるが、それにしてもわずか6年ほどでマーケットの1/3をEPYCがとっているわけで、なるほどIntelのDCAI Groupが苦戦するわけである。さてそこに投入される新製品がTurinである(Photo03)。12ダイで最大192コア、ということはダイあたりのコア数は16になる計算で、これは従来の倍である。ソケットはSP5互換であり、基本はGenoa PlatformにBIOS Updateを掛けるだけで利用できることになる。ちなみにCCDは3nm、IODは6nmで製造されることが明らかにされた。まだ詳細は明らかではないが、128coreのTurinですらNAMDの結果ではXeon 8592+の3.1倍の性能(Photo04)。AI処理でも2.5～5.4倍の性能とされる(Photo05)。

Photo02: 個人的には、2018年に2%もシェアとれたんだ、というほうがむしろ驚きではあるのだが。

Photo03: CCDが細長くなっている。

Photo04: 数は力、という感じである。ちなみにZen5アーキテクチャなのでIPCも18%ほど伸びている計算である。

Photo05: ただこれメモリが何をつかってるかちょっと疑問である(脚注にはMemory:1TBとしか書かれていない)。

ただThreadripper 7995WXのレビューの時も実感したが、コア数を増やしてもメモリ帯域が追い付かないとコアが遊んでいるだけである。Genoa PlatformということはDDR5×12chなので、明らかにコアとMemory Channelのバランスが壮絶に崩れている感はある。解決策はあってそれはMRDIMMをサポートすることなのだが、このあたりがどうなっているのか今回は明らかにされなかった。ただ脚注にメモリの種別が書いてないあたり、実際にはMRDIMMのSample品を使ってベンチマークを行っているのかもしれない。

余談ながら、そのTurinのサンプル(Photo06)のパッケージを拡大する(Photo07)と、本当にIODがかなり細長い。これはRyzen 9 9950XのCGサンプルと比較しても明らかに異なる。つまりついにAMDはEPYCとRyzenで、異なるCCDを使う方向に踏み出したことになる。理由は2つ考えられ

(1) 24 CCDだとInfinity Fabricのレーン数が多くなりすぎる。かといって、Ryzenを最小でも16core/CCDに移行させるのはコア数が多すぎるし、下位モデルでは無駄が多い。特にTSMC N3Eは製造コストがかなり高いので、Ryzenで採用すると原価が上がりすぎてしまう。

(2) TSMC N3Eは需要が逼迫しており、EPYC用はともかくRyzen用までは賄えない。

というあたりかと思われる。ちなみにAMDはまだRyzen 9000のCCDのプロセスは明示していないが、Ryzen AI 300シリーズは4nmと明らかにしており、Ryzen 9000のCCDもTSMC N4あたりの公算が高そうだ。

Photo06: にこやかにTurinを示すLisa Su CEO。

Photo07: ちょっと画像が荒れているのはご容赦を。CCDの横幅が、IODの幅と同じくらいある。

なおTurinベースのEPYCは、今年後半に発売と発表されている。すでに先日の決算発表の際に、特定顧客へのサンプル出荷が始まっていることは明らかにされている。

次にAMD Instinctについて。今回MI300Xの後継として、MI325X/MI350/MI400の各製品が投入されることが明らかになった(Photo08)。そのMI325Xだが、要するにHBMの容量を1.5倍増にし、若干高速化させたものとなる(Photo09)。MI300Xは192GBで5.2TB/secと発表されている。つまりMI300Xは容量2GBのDieを12Hi積層させ、Stackあたり24GBだったのだが、MI325では3GBのものに増量。Stackあたり36GB、8 Stackで288GBというわけだ。HBM3eは本来信号速度が6.4Gbps/pinの筈だが、実際にはここまでの速度は出ておらず、例えばNVIDIAのH100だと4.8Gbps/pin、MI300Xも5.2Gbps/pinに速度を落として使っていた。今回はもう少し状況がよくなって、6Gbps/pinまでは行かないものの5.8Gbps/pin程度まで引き上げることができるようになった、という模様だ。これにより、NVIDIAのH200に対しても十分競争力があるとする(Photo10)。ちなみにXCDそのものはMI300Xから変更がない模様で、なのでTSMC N5での製造になると思われる。

Photo08: MI325Xは基本MI300Xの延長。MI350以降はアーキテクチャも刷新。

Photo09: 8 Stackで6TB/secだから、転送速度は5.8Gbpsちょいになった。MI300Xは5.2Gbpsだから、若干引き上げが可能になった様だ。

Photo10: もともとH200がH100のメモリ増強版であり、MI325XはMI300Xのメモリ増強版として、ちょうどH200対抗になると考えるのが妥当だろう。

Photo11: HBM4は多分間に合わないのだろう。

続いて2025年に投入されるMI350は、CDNA4アーキテクチャに基づくものとなり、3nmでの製造だが、既存のMI300XのOAM(OCP Accelerator Module)と互換性があるとされる。という事は、MI300Xと同等の消費電力枠で動作するというわけだ。このCDNA4に基づくMI350シリーズは、MI300シリーズと比較してInferenceで35倍高速、とされる(Photo12)。ちなみにこのMI350シリーズはNVIDIAのB200の対抗馬と位置付けられており、AI Compute性能で1.2倍とされている(Photo13)。

Photo12: この性能向上の半分はFP8→FP4への移行だろうが、それだけでは当然説明がつかないわけで、他にも色々ありそうではある。

Photo13: あくまでこれは推定値である。あとB200も大容量メモリ版が後から出てきそうな予感が...

最後にVersal AI Edge Gen2の話を一つ。こちらでVersal AI Edge Gen2の製品サンプルは2025年前半、評価キットやSOMは2025年中旬、量産は2025年末を予定しているという話をご紹介したが、すでに30以上の戦略パートナーにEarly Siliconが提供されていることが今回発表された(photo14)。