迫るZen 4とRDNA3、Zen 5以降は？ AMDが2024年までのロードマップ - AMD Financial Analyst Day 2022より

米AMDは現地時間の6月9日にFinancial Analyst Day 2022を開催、ここで同社のロードマップを一挙公開した。ここでは主要なものを取り急ぎご紹介したい。

CPU Core/Interconnect Architecture

冒頭Lisa Su CEOによる、主に財務的な状況と今後の展望が語られた後で登場したのがCTOのMark Papermaster氏であるが、氏によりCPUコアとInterconnectのロードマップが示された。

まず間もなく登場するZen 4世代だが、これは当初5nmながら次いで4nmが投入される。そしてその次にZen 5がまず4nmで、そのあと3nmに移行したバージョンが投入される(Photo01)。そしてまず間もなく詳細が公開されるであろうRyzen 7000シリーズに搭載されるZen 4だが、アーキテクチャの大幅更新は次のZen 5送りとなり、性能/消費電力比の向上、それとAVX-512への対応が明らかにされた(Photo02)。ただ性能/消費電力比では25%以上、総合性能では35%以上の向上とされており(Photo03)、ここからするとRyzen 7000シリーズはそれほど消費電力が大きくない可能性もある。COMPUTEXの基調講演ではTDPがMax 170Wという数字が駆け巡ったが、必ずしもこれをフルに使い切っていない可能性が出て来たことになる。

そして2024年には、Zen 5コアが登場するが、こちらは完全に再設計になる事が予告された(Photo04)。またその次世代ではCXL 2.0のサポート(それもCXL.memoryの完全サポート)やCLX 3.0、更にUCIeへの対応や、Xilinx FPGA/3rd Party IPへの対応などが行われる事が明らかになった。もっともこれはRyzen向けというよりはEPYC向けという扱いだろうが。このChipletであるが、このスライド(Photo06)をみる限り将来のEPYCその他は、オンパッケージの物理層をUCIeにすることが可能になっているようだ。

Photo01: Zen 4/Zen 5にも3D V-Cacheのオプションが用意される。逆に言えば、3D V-Cacheが標準になる訳ではない、という事だ。

Photo02: IPCそのものは10%程度の向上に留まっているとする。これに動作周波数向上を加味して、15%ほどのSingle Thread Performance向上とするわけだ。

Photo03: 比較が相変わらずCineBench NTというあたりがアレだが。ちなみに測定はCPUソケット単体でのものとの事。

Photo04: Tick-Tockで言えば、Zen 4がTockでZen 5がTickとなる形だろう。そもそも再設計していればIPCの向上が10%というのはちょっと少なすぎる訳で、逆に言えばZen 4はZen 3から大きくパイプラインは変わっていないものと思われる。

Photo05: この第4世代Infinity Architectureだが、一部はZen 4世代に入る事が確定している(EPYCの所で触れられている)。

Photo06: 全面的に物理層をUCIeで置き換える訳ではなく、UCIeもInfinity Fabricの物理層の一つとして選べる、というレベルの話に見える。

GPU Core Architecture

ついでDavid Wang氏(SVP Engineering, Radeon Technology Group)によるGPUコア側のロードマップである。まずGPU製品向けのRDNAであるが、RDNA3はパイプライン再設計などにより、性能/消費電力比を50%向上させたとしている(Photo07)。このRNDA 3はNavi 3xであるが、その先にNavi 4xも見えていることが明らかにされた(Photo08)。

一方GPGPU向けのCDNAであるが、次世代のCDNA3は「AI」性能/消費電力比を5倍以上にする、としている。面白いのはキャッシュがChiplet構成であると明示されたこと。3D V-Cache的な構成というよりは、むしろIntelのPonte Vecchioに搭載されるRAMBO Cacheに構成的には似ているのかもしれない。また新たにUnified Memory Architectureを搭載する、としている。そのUnified Memory Architectureとは、要するにCPUからもHBMをフルにアクセスできるようにする、という形になるそうだ(Photo10)。ちなみにCDNA3は5nmでの製造で、2023年にRadeon Instinct MI300として投入されるとした(Photo11)。

Photo07: 身も蓋もない言い方をすれば、現在のハイエンドGPUは消費電力とダイサイズを無視すればどこまででも性能が上げられる訳で、逆に消費電力が性能のボトルネックになりつつある。その意味でも性能/消費電力比の向上は待ったなしである。

Photo08: 現在のRDNA2が7nm/6nmなので、次のRDNA3は恐らく5nm/4nm、RDNA4は4nm/3nmというあたりだろうか？ TSMCの2nmは2025年製造開始とされているが、最初はスマートフォン向けだろうからGPUが利用可能になるのは2026年あたりで、ちょっとRDNA4には間に合わない気がする。

Photo09: これは要するに、よりAIに向いたデータ型を用意するという話と思われる。例えばInt 4とかをフルに実装すれば、現在のInt 8の4倍高速にすることも不可能ではない。多分そういう話であって、FP64の性能とかで比較するとどこまで向上するかは不明。

Photo10: なんとなくここにはCXLの仕組みを使っている様に見える。CXL.memoryの形でCPUからもHBM Memoryがアクセスできるというあたりではないだろうか？

Photo11: 珍しく2024年の話が無い。あるいは次は全く新しいアーキテクチャになるのだろうか？

Server Products

ここからは製品ロードマップ。まずはDan McNamara氏(SVP&GM, Server)による次世代EPYCの話である。まずEPYCの製品ロードマップであるが、今年から来年にかけてGenoa/Bergamo/Genoa-X/Sienaの4ファミリーが投入され、2024年あたりにはTurinファミリーが投入されることになる(Photo12)。まずGenoa(Photo13)だが、こちらはCPU Dieが12個で最大96コア/192スレッド構成。更に12ch DDR5とPCIe Gen5/CXL 2.0にも対応した製品でEnterprise Javaの性能は現行のMilan比で最大75%向上するとする。一方のBergamoの方だが、こちらは最大128コアで、ソケットそのものはGenoaと同じSocket SP5になる。こちらは以前も説明したようにクラウドにおける効率向上を主眼とした製品である。

さて今回初登場したGenoa-XとSiena(Photo15)だが、Genoa-Xの方はGenoaに3D V-Cacheを搭載したもので、パッケージあたり1GB以上のL3キャッシュを搭載したものになる。一方のSienaは、Genoaベースながらコスト及び性能/消費電力比を高めたものである。こちらがGenoaと分けられているのは、そもそもSP5プラットフォームで無いのかもしれない(実際スライドに"Lower Cost Platform"とあるあたりもそれを示唆する)。つまりDDR5も8ch位に留められており、またコアもそれほど高い動作周波数ではないかもしれない。そもそもIntelligence Edge及びTelco向けというあたり、LGAパッケージではなくBGAでの提供の可能性もある。こちらはXilinxの買収に伴い、Telcoなどの分野にソリューションを提供できるようになったことに伴うもので、競合製品はXeon SPというよりはXeon Dという事になる。その意味ではEPYC Embeddedの延長にありそうな製品になりそうだ。このGenoa-X/Sienaは2023年中に市場投入の予定とされる。

続いてはForrest Norrod氏(SVP&GM, Data Center Solutions Business Group)による説明だが、Genoa/Genoa-X/Bergamoはもう説明が終わっているので、内容は必然的にRadeon Instinct MI300ということになる(Photo16)。といってもあまり細かな話は無いのだが、Genoa世代と組み合わせる事を前提にしている(Photo17)。こちらの製品投入は2023年中であり、という事はAMDが2023年にLLNLに納入されるEl CapitanはGenoa(か、Genoa-X)とこのRadeon Instinct MI300の組み合わせという事になりそうだ。

またAMDは今年4月6日にPensandoを買収した。これにより、XilinxのAlveoアクセラレータ、Xilinxが買収したSolarflareのSmartNICに加え、Pensandoの提供するP4アクセラレータもデータセンター向けに提供できる事になった(Photo18)。元々XilinxはSolarflareの技術をAlveoに移植して提供したりしていたから、このあたりの親和性は高い。これに加えてPensandoのP4 Processorを入手した事で、今後はIPU/DPUに相当するソリューションをデータセンター向けに提供できるようになる格好だ(Photo19)。

Photo12: Genoa/Bergamo/Genoa-X/SienaはいずれもZen 4(/Zen 4c)ベースである。

Photo13: この公約が守れるとすれば、CXL Memory Attachに対応した最初のプラットフォームを提供するのはIntelではなくAMDということになる。

Photo14: こちらは2023年前半の投入となる。

Photo15: 仮にGenoa-XがMilan-Xと同じくダイ当たり96MB L3だとしても12ダイだから1152MBと、見事に1GBを超える事になる。

Photo16: HPC向けだけでなく、データセンター向けと銘打っているあたりが興味深い。

Photo17: やっとAPUがサーバーマーケットにも投入されるという話でもある。もっともNVIDIAもGrace Hopper(Grace CPU+Hopper GPU)をここに投入しようとしているから、そのGrace Hopperへの対抗馬という位置づけでもある。

Photo18: PensandoとAlveoで、IntelやNVIDIAが最近注力しているIPU/DPUへの対抗が可能になった形。

Photo19: IntelはMount EvansがやはりP4アクセラレータ機能を持っており、これと真っ向勝負する形になる。

Embedded Products

次はVictor Peng氏(President, AECG。旧Xilinx CEO)による組み込み部門の話である。Xilinxの買収に伴い、旧Embedded部門がAECG(Adaptive and Embedded Computing Group)に再編されたという話はこちらで触れたが、そのAECGのシリコンロードマップがこちら(Photo20)。

FPGAは当面7nmのままで、次は2025年を目途に3nmに移行する。一方で6nm/5nm世代のEPYC EmbeddedとRyen Embeddedが投入されることも明らかになったが、これはそれほど珍しくない。ちなみに6nmのRyzen Embeddedは、恐らくRembrandtことRyzen 6000 Mobileがベースの製品と思われる。ここまではまぁ良いのだが、問題はその先。"Pervasive AI"(AIの広がり)としたこちらのスライドで判るように、現在のAMDのAI向けソリューションは取っ散らかっているというか、そもそも統一したソリューションが提供されていない(Photo21)。これを統合すべく、AMDはXDNAという新しいAI向けのIPを提供すると共に、それを共通フレームワーク化する事を明らかにした(Photo22)。Photo23が現在のAIアプリケーションに対するソリューションであるが、今後XDNAという名前で共通のAIエンジンをRyzenやEPYCなどに搭載してゆく事を明らかにした(Photo24)。丁度Intelは次のMeteor LakeでMovidiusのMyriadシリーズのAIエンジンをアクセラレータの形で搭載するらしいとされるが、AMDもXDNAアクセラレータが搭載される訳だ。後の方のスライドではAIE(AI Engine)と書かれており、これはVersal ACAPのAI Engineをベースにしたものが搭載されると思われる。

問題はソフトウェアである。現在はこの通りバラバラであるが(Photo25)、これを共通化するUnified AI Stack 1.0をまず提供(Photo26)、将来的にはこれをさらに統合し、最小限の機種依存部を除き共通化する方向性を示した。

Photo20: 以前「Post 7nmはどうなるんだ？」とPeng氏に伺ったときには答えが濁されたのだが、FPGAは5nmをスキップして3nmに移行する事に。

Photo21: 根本的にはAIのフレームワークがAMDはRadeon Instinct向けのROCmしかなかったのが最大の問題。ただ今後はEPYCやRyzenにも必要になる。で、これらはXilinxのAI Framework(Vitis AIなど)と勿論互換性が無い。

Photo22: VersalシリーズにはVLIWベースのAI Engineが搭載されるが、全てのFPGAにこれが搭載されているわけではない。

Photo23: 現在というか、Xilinx買収前の、と言う方がかなり実情に近い。一方XilinxはVersalの一部モデルのみがAI向けハードウェアを持っていた。

Photo24: 将来のAdaptive SoCは、Radeon Instinctに並ぶほど大規模なAI Trainingに使える性能のものを提供する、と言うのも特徴的。

Photo25: CPUに関しては、要するにAMDから提供されるZenDNNとAOCL Optimization Libraryのみしかなかったのが現状である。

Photo26: この時点では共通の皮をかぶせる以上の話ではない。

Photo27: このあたりでoneAPIというかoneDNN(oneAPI Deep Neural Network) Libraryっぽくなっている。

Client

ようやくクライアント向けである。まずはSaeid Moshkelani氏(SVP&GM, Client)によるCPU製品の紹介。まずMobile向け(Photo28)であるが、次は4nm世代のPhoenix Pointで、これはZen 4コアにRDNA3、それとAI Engineを搭載。その次はStrix Pointで、こちらはZen 5にRNDA3+、それとAIEとなっている。デスクトップの方は今年Ryzen 7000シリーズが投入される(Photo29)が、これに続き3D V-Cacheを搭載したRyzen、及びZen 4ベースのRyzen Threadripperもラインナップされる。続くZen 5のGranite Ridgeは、時期的には4nmか3nmか難しいところである。

一方GPUはRick Bergman氏(EVP, Computing and Graphics Business Group)が説明されたが、製品に関しては今年年末にNAVI 30シリーズ製品が投入される(Photo31)という以上の説明はなかった。