Application Performance

さて、Intelによれば(Photo14参照)、一番肝心のApplication Performanceである。これが意外に比較が難しい。例えばEnterprise&Cloudの分野でIntelが出しているPerformance Dataは例えばこんな具合(Photo34)で、2世代前(つまりCascade Lake-SP)世代のものとの比較である。あるいはMicroserverではDeath Star benchの結果が示されている(Photo35)が、こちらはGenoaでの実施例がまだ存在しないので比較できないといった具合。これはAI&MLの分野も同じで、こちらはAMDがまだGenoaでの具体的なTraining/Inference性能を公開していないからという理由もあるのだが、比較が出来ないでいる。

  • Photo34: この中でPerformance比較は、Xeon Platinum 8490HがQpH(Query per Hour)が7983、Xeon Platinum 8280Lが3376なので2.3倍という話だそうだ。Ice Lake世代の数字はない。

  • Photo35: もっとも仮にGenoaでの実施例があったとしても、IntelはDeath Star Benchの具体的なスコアは公開していないので、比較のしようが無いのだが。

唯一比較が可能だったのがHPC向けのマーケット。こちらのスライド(Photo36)によれば、Ansys FluentでのSapphire Rapidsの性能は、Xeon Platinum 8380の1.6倍であるとされている。一方でGenoaは、やはりXeon Platinum 8380と比較して2.5倍程度の性能であるとしている(Photo37)。AMD/Intel共に絶対的なスコアは示していないので、これで検証というのも難しいが、AMDのPerformance Numberの公開サイトではスコアも示されており、(Ansys Fluent 2022R2ではあるが)

4-Stroke spray guided Gasoline Direct Injection 2M 947.7
External Flow Over an Aircraft Wing 2M 29794.6
Circulating fluidized bed 2M 14961
Cavity flow in a centrifugal pump 2M 17425.86
Transonic axial-flow in a rotor 3M 20171.33
External Flow over passenger sedan 4M 25349.96
Wave loading on oil rig 7M 4153.9
Boeing Landing gear analysis 15M 1181.96
External Flow Over an Aircraft Wing 14M 3343.43
Flow through a combustor 12M 940.86
Vehicle Exhaust model 33M 1160.13
Flow through a combustor 71M 89.76
External Flow over a Formula-1 Race car 140M 188.76
(いずれも結果はRating:EPYC 9654 2 Socket Serverでの結果)

といった数字を拾う事が出来る。ちなみにAnsys自身での測定結果で、GenoaはMilan比で29%~70%と結構高速化しているとされており(Photo38)、恐らく1~2 Socket構成で考える限りにおいてはGenoaの方が高速と考えて良いだろう。

  • Photo36: 脚注によればpump_2m/sedan_4m/rotor_3m/aircraft_wing_14m/combustor_12m/exhaust_system_33mの各データセットを利用した比較の平均値と思われる。利用しているのはAnsys Fluent 2022R1。

  • Photo37: AMDは利用するモデルを公開していないが、そう大きくは違わない気がする(理由は本文)。

  • Photo38: 説明はAnsysのWim Slagter博士(Director, Strategic Partner)。

もう少し公開データで、しかも実アプリケーションに近いものは? ということで、グラフ6はSPECjbb-2015の公開データから、Genoa及びSapphire Rapidsの結果を拾ったものである。Genoaは2022年Q4、Sapphire Rapidsは2023年Q1からPickupしている(どちらも2 Socketの構成のみ)。横軸はmax-jOPS、縦軸はcritical-jOPSで、どちらも数字が高いほど性能が高い。max-iOPSの方は文字通りピークのjava Operation性能、critical-jOPSの方はSLAが10000μs/25000μs/50000μs/750000μs/100000μsの場合の幾何平均で、まぁ実効性能に近い。で、当然システム構成によって多少のばらつきはある訳だが、全体的に言ってGenoaはSapphire Rapidsの2倍近いjOPSを叩き出している。maxの方は概ね2倍だが、criticalの方はそこまでいかず1.7倍程度であるが、どちらにしても圧倒的な性能差である。気になるのは、Xeon Platinum 8490Hがmax-jOPSが高い割にcritical-jOPSが低めな事である。むしろXeon Platinum 8480+の方がバランスが良い感じだが、いずれにしても性能に大差がついている事そのものに違いはない。

  • グラフ6

同様にSPEChpcの結果だが、こちらはまだ公開されている数が少ないので、表形式で。

SPEChpc2021 Tiny SPEChpc2021 Small
Base Peak Base Peak
Lenovo ThinkSystem SR665 V3(EPYC 9654) 13.9 14.2 1.45 1.45
xFusion 2288H V7(Xeon Platinum 8490H) 9.45 9.88 1.06 1.06

どちらもOpenMPを使った結果での比較である。ちなみにSPEChpcはテストで利用するデータセットのサイズでTiny/Small/Medium/Largeの4つがあるが、Medium/Largeは今のところ公開データが0なので比較対象となっていない。ちなみに条件で言えば、xFusionの2288H V7は1TB Memory、Lenovo ThinkSystem SR665 V3は768GB Memoryなので、どちらかと言えばXeon Platinum 8490Hが有利な筈だが、Tiny/Small程度のデータセットではメモリをそこまで使わないから差が出ないものと思われる。

同様にベンチマーク結果が公開されているものとしてはTPCがあるが、こちらは現状Genoaについては幾つか公開されているものの、Sapphire Rapidsに関しては結果が全く登録されていない。TPCはいずれも実施に結構な時間とコストが掛かるだけに、登録されるまでにはもう少し時間を要するものと思われる。

これ以外にベンチマークは? というと、phoronixが今年1月10日に、Intel Xeon Platinum 8490H "Sapphire Rapids" Performance Benchmarksを公開している。こちらは

AMD:EPYC 7713/EPYC 7763/EPYC 7773X/EPYC 9374F/EPYC 9554/EPYC 9654
Intel:Xeon Platinum 8362/Xeon Platinum 8380/Xeon Platinum 8490H

の合計9種類の構成で多数のテストを実施している(流石に結果をここで転載するのは問題があるので、興味ある方はphoronixの記事を参照してほしい)。こちらでも、Genoaのスコアがかなり良好であることが示されている。