「Sapphire Rapids」がついにテイクオフ、第4世代Xeon SPおよびMaxシリーズをインテルが解説

（ようやく）Sapphire Rapids/Ponte Vecchioの量産出荷開始

2023年1月11日、現地時間だと10日の米国発表を受けて第4世代インテル Xeon スケーラブル・プロセッサー（Xeon SP）、インテル Xeon CPU マックス（Xeon CPU Max）とインテルデータセンター GPU マックス（GPU Max）に関する国内向け説明会が行われました。米国発表の第一報はこちらの大原氏の記事が詳しく、重複するところもありますが説明会の内容をお届けします。

本日の登壇者、左から執行役員技術本部長町田奈穂氏、代表取締役社長鈴木国正氏、執行役員インダストリー事業本部長張磊氏

冒頭、インテル代表取締役社長鈴木国正氏は、今年第一弾のプレスブリーフィングで、第4世代インテル Xeon スケーラブル・プロセッサーを紹介することになったと発言。インテルはデータ需要の急増に大きく貢献していたと自負しており、さらに今後のデータセンターの成長を加速するため、インテルのスタンスとして「最先端のプラットフォーム、未来を見据えたイノベーションと継続的な進化」の三点を重視すると挙げました。

Sapphire Rapids（Xeon SPとXeon CPU Max）およびPonte Vecchio（Max GPU）は、昨年2月には限定的に出荷されていましたが、同日の発表を持って量産出荷の開始となります。

世界のデータセンターを支えてきたのはインテルCPUという自負の元、継続して進化した製品を提供

今回発表されたのは第4世代インテル Xeon スケーラブル・プロセッサー、インテル Xeon CPU マックスとインテルデータセンター GPU マックス・シリーズの3製品となります。「これらの製品でデータセンター向け市場のリーダーシップを再び確立し、新しい利用分野においても足場を固める（鈴木社長）」。

Sapphire Rapidsは多くの内蔵アクセラレーターを備え、性能と消費電力低減に力を入れた製品です

今回の設計はパートナーの課題やビジネス変化をとらえワークロード性能を上げることを最優先しており、CPUコアの拡張だけにとどまらずワークロードに特化した内蔵アクセラレーターによって、性能のみならず電力効率もアップしTCOの最適化をはかります。

今回の設計はワークロードを最重視し、CPUコアの改良のみならずアクセラレーターを搭載。最新のソフトウェアを利用することでアクセラレーターの恩恵がすぐに得られるようになっています

Xeonブランドがスタートしたのは1998年のことで、今年はXeon25周年にあたり、インテル Xeon スケーラブル・プロセッサー全体で8,500万ユニットを出荷。第三世代（Ice Lake）も1,500万ユニットを出荷しました。今回のSapphire Rapidsに関してもすでに400のデザインウィンが進行中で日本市場でも確固たるエコシステムが確立されている順調さをアピールしています。

Xeonスケーラブルプロセッサーはすでに8,500万以上出荷され、前世代に限っても1,500万以上出荷。第四世代製品は大きな数値を狙っているとコメント

世界では400のデザインウィンが進行中ゆえにエコシステムも巨大です

ワークロードに特化したアクセラレーターを内蔵しCPUコア改善以上の性能

製品の技術的概要に関しては、今回の説明会が技術本部長として報道向けデビューの日ともなった、執行役員技術本部長町田奈穂氏が担当。

まずはCPUから解説し、第4世代インテル Xeon スケーラブル・プロセッサーはシングルダイとマルチダイの2系列があり、さらにインテル Xeon CPU マックスはマルチダイに加えHBMによるメモリ拡張を行った世界初のx86プロセッサであり、あわせて3系列となる各製品の差を簡潔に紹介しました。

まずCPUから。実環境ワークロード性能を最重視した設計で、アクセラレーターを内蔵がポイントです

CPU設計に関しては鈴木社長も述べていたように実環境のワークロード性能を追求。ここでベンチマークと実際のワークロードにおける速度に関し、後者はスケジューリングと実行を行うバックエンドの負担が大きいため「ベンチマーク速度だけで実際のアプリケーション性能を判断するのは難しい（町田氏）」。インテルとしては実環境のワークロードの性能向上のためには個別のアプローチが必要であると言います。

青いベンチマークよりも赤い実環境ワークロードの方がスケジューリングと実行のバックエンド処理負荷が大きく、ベンチマーク結果がそのまま実環境性能を示さないと言います

インテルは（5G交換機を主眼とした）ネットワーキング、ストレージ、AI、HPC、データ分析でのワークロード性能を上げるために市場のCPUで最多の内蔵アクセラレーターを搭載し、トップレベルのパフォーマンスと効率性を実現しました。

ノード単体だけでなく、データセンター全体での性能を上げるために電力モードの最適化やプラットフォームモニタリング、リソースディレクターやCPUの経年劣化を検知するインフィールドスキャンも内蔵。目的に応じて利用するアクセラレーターを追加できるインテルオンデマンドも加えました。

CPUそのものはPコアの改良によって、クロック当たりの実行命令数を前世代比15%アップを目指した設計となっており、さらにキャッシュメモリの増大と機能安全のステップ関数が入りました。

CPUコアそのものも以前よりも向上させただけでなく、データセンター単位での性能向上も果たしています。セキュリティも強化

マイクロアーキテクチャーを強化して、L2/L3キャッシュも増量、アクセラレーター関係命令も向上させ、経年劣化の検知する機能安全も加えています

パッケージにEMIB（Embedded Multi-die Interconnect Bridge）を採用し、隣接するチップレット（シリコンダイ）を近接接続しています。ダイ間配線のためのシリコンをパッケージ内に入れる事により、シリコンインターポーザよりも追加シリコン面積が小さく、シリコン貫通ビアを使わないのでコスト的にも有利な技術です。

第4世代インテル Xeon スケーラブル・プロセッサーではMCCと呼ばれるモノシリック製品とXCCと呼ばれる4ダイワンパッケージの製品に分かれます。MCCは比較的高クロックとレイテンシーに優れており最大30コア4ソケット、XCCは4タイルパッケージでパッケージ当たり最大60コア8ソケットまで対応しています。

インテル Xeon CPU マックスはパッケージ内4タイルに加え、HBMによる追加メモリが含まれておりパッケージ当たり最大56コア、最大2ソケットとなっています。

インテル第4世代インテル Xeon スケーラブル・プロセッサーはパッケージ内にダイが一つのMCCと、4つのダイを入れたXCCにわかれ、XCCにHBMを加えたのがインテル Xeon CPU マックス。あわせて3系列の製品を出荷

第4世代Xeonのもう一つの特色が内蔵アクセラレーター。CPUとは別にワークロード別に用意されたアクセラレーター機能が（一部後付けで）提供されます。用意されたのは5種類（行列演算のAMX、ネットワーク速度を上げるDLB、暗号処理のQAT、インメモリデータベース用のIAA、データ転送のDSA）で、最新のソフトウェアを利用することで自動的に利用可能になります。なおAMXは標準で有効で、他はインテルオンデマンドで追加できます。

左の画像では5種類のアクセラレーターに見えますが、右では6種類あります。他のスライド資料にはAVX for vRANの記載がないのですが、これはAVX-512命令にFP16を追加したものとの事。それぞれの下に記載してある白い文字のソフトウェア最新版を使えば恩恵が得られます

プラットフォーム全体ではDDR5メモリを使う事で150%の速度アップをはじめ外部バスとしてPCIe5.0/CXL1.1の採用、パッケージ間通信のUPI2.0により最大1.9倍の転送向上があり、インテル Xeon CPU マックスではHBMを最大64GB搭載します。

I/O関連も速度アップ。DDR5メモリは最大4800MT/Sで1.5倍。速度が上がったPCIe 5.0とCXL 1.1とI/Oをフレキシブルにサポート。チップ間の転送を行うUPIは最大1.9倍になり、MAXシリーズはHBMを搭載

同じプラットフォームで第4世代インテル Xeon スケーラブル・プロセッサーとインテル Xeon CPU マックスの両方をサポートしているうえ、正式発表時で52SKUと幅広い対応です。インテルオンデマンドがなければさらに数倍になったのでしょう

今回は性能重視のPコアの製品ですが、すでに発表されているエントリー向けのモバイルプロセッサ「N」シリーズのように、EコアのみのXeonも今後のロードマップとして紹介。EコアはPコアよりも性能は劣るものの面積が小さく、一つのパッケージに多数のコアを搭載することでクラウドプロバイダー向けになると説明していました。

今回の製品は性能重視のPコアですが、今後電力消費効率に優れたEコア採用製品も出るとアピール。コンシューマー向け製品ではCore i9-13900KがEコアを16基搭載しており、結構高い性能を出していますし、下位製品でEコアのみのIntel Nシリーズも発表されたのでEコアを今後アピールしたいようです

GPUに関しては昨年Flexシリーズを投入しましたが、今年はまずHPC、AI、スパコン向けのインテルデータセンター GPU マックス・シリーズを投入。この「Ponte Vecchio」も限定的な顧客に出荷しており、EMIBによるチップレット間通信に加え、チップレットの垂直接続を行うFoverosも併用し、パッケージ当たりXeコアを最大128備え、FP64で52TFという演算能力を持ちます

インテルデータセンター GPU マックス・シリーズに関しては、過去に多く説明がありましたし、スパコン向けで顧客が限られるからあっさりした紹介でした

アクセラレーターの恩恵もあり、高い性能でTCO削減

技術面の説明が終わった後、活用シーンに関して執行役員インダストリー事業本部長張磊氏が紹介しました。冒頭鈴木社長も使ったスライドを再度見せ「データセンターで一番使われているプラットフォーム（がXeon）」と市場優位性を説明しました。

サーバー市場で今後の発展が期待できる分野として「人工知能、ネットワーキング、ストレージ、HPC、データ分析」を挙げました。

第4世代インテル Xeon スケーラブル・プロセッサーは第3世代製品に対して、汎用コンピューティングで53%、人工知能で最大10倍、ネットワーキングとストレージが最大2倍、データ分析に対して最大3倍の性能と最大2.9倍エネルギー効率がよいと言います。

現在成長中のアプリケーションとユースケースを注視した設計が第4世代インテルXeonスケーラブルプロセッサーの特徴です

性能向上の決め手がCPUに多く内蔵されたアクセラレーターで標準実装のAMXによって最大8.6倍、追加オプション（Intelオンデマンド）によってDLBが最大96%、DSAで最大1.7倍、IAAで最大2.1倍、QATで最大84%の向上になると説明しました。アクセラレーターによってCPUの基本アーキテクチャを超える性能向上と、エネルギー効率の良さが引き出されます。

前世代（Ice Lake）のサーバー50台分の性能を出すために、第4世代インテル Xeon スケーラブル・プロセッサーを使うと人工知能では17台データベースで18台で済み、その分電力消費も減り半分以下のTCOとなります。インテル Xeon CPU マックスを使用したHPC向け構成では16台でTCOも66%の削減とさらに効果が高まります。

Pコアとプラットフォーム改善で汎用コンピューティングでも性能向上がありますが、内蔵アクセラレーターによってより高い性能と消費電力当たりの性能を実現

5つの内蔵アクセラレーターによる特定ワークロードのパフォーマンスアップ。すでに記載している通りAMX以外はインテルオンデマンドによるアクティベートが必要ですが、その価格は今回示されませんでした

アクセラレーターによって速度だけでなく、エネルギー効率もアップ

特定領域ではアクセラレーターの効果もあり、より少ない台数で同じ性能が得られ、それによって消費電力やCO2、TCOも削減

世界で400以上のデザインウィンが進行中と鈴木社長から説明がありましたが、張氏は日本における採用事例をいくつか紹介。

京都大学ではCamphor3に採用され、これがAPAC初の事例と紹介されました。京都大学のサイトによると次期システムAがCamphor3で1120ノード。稼働時期が「2023年6～8月頃を予定」となっています。一方、次期システムB（Laurel 3:320ノード）/C（Cinnamon 3:16ノード）はノード数が少ないものの同じサーバー（DELL PowerEdge C6620:DELLのサイトにはまだ記載なし）を使用しており、こちらは試験運転ながら「2023年1月を予定」という予定になっています（サイトの最終更新日は2022年10月27日）。この件に関して聞いてみたところ「すでにテストは全部終わっていて、導入準備中」という回答でした。

教育機関では筑波大学がノード当たり2TBのメモリを搭載した120UNITを使用するPegasusの導入が行われる予定となっています。筑波大学のサイトによると、すでに試験稼働を開始しており、DDR5に対応したOptane Persistent Memory 300 Series（コードネーム:Crow Pass）が使われている事が明記されています。「すでにインテルはOptaneの新たな研究を行わないことを発表しているがOptane Persistent Memory 300は昨年発表された最後の製品となる（鈴木社長）」と説明されました。

民間企業ではさくらインターネット、ノーチラステクノロジー、IBM Cloudの事例も紹介されています。