Application Performance
さて、Intelによれば(Photo14参照)、一番肝心のApplication Performanceである。これが意外に比較が難しい。例えばEnterprise&Cloudの分野でIntelが出しているPerformance Dataは例えばこんな具合(Photo34)で、2世代前(つまりCascade Lake-SP)世代のものとの比較である。あるいはMicroserverではDeath Star benchの結果が示されている(Photo35)が、こちらはGenoaでの実施例がまだ存在しないので比較できないといった具合。これはAI&MLの分野も同じで、こちらはAMDがまだGenoaでの具体的なTraining/Inference性能を公開していないからという理由もあるのだが、比較が出来ないでいる。
-
Photo34: この中でPerformance比較は、Xeon Platinum 8490HがQpH(Query per Hour)が7983、Xeon Platinum 8280Lが3376なので2.3倍という話だそうだ。Ice Lake世代の数字はない。
唯一比較が可能だったのがHPC向けのマーケット。こちらのスライド(Photo36)によれば、Ansys FluentでのSapphire Rapidsの性能は、Xeon Platinum 8380の1.6倍であるとされている。一方でGenoaは、やはりXeon Platinum 8380と比較して2.5倍程度の性能であるとしている(Photo37)。AMD/Intel共に絶対的なスコアは示していないので、これで検証というのも難しいが、AMDのPerformance Numberの公開サイトではスコアも示されており、(Ansys Fluent 2022R2ではあるが)
4-Stroke spray guided Gasoline Direct Injection 2M | 947.7 |
---|---|
External Flow Over an Aircraft Wing 2M | 29794.6 |
Circulating fluidized bed 2M | 14961 |
Cavity flow in a centrifugal pump 2M | 17425.86 |
Transonic axial-flow in a rotor 3M | 20171.33 |
External Flow over passenger sedan 4M | 25349.96 |
Wave loading on oil rig 7M | 4153.9 |
Boeing Landing gear analysis 15M | 1181.96 |
External Flow Over an Aircraft Wing 14M | 3343.43 |
Flow through a combustor 12M | 940.86 |
Vehicle Exhaust model 33M | 1160.13 |
Flow through a combustor 71M | 89.76 |
External Flow over a Formula-1 Race car 140M | 188.76 |
(いずれも結果はRating:EPYC 9654 2 Socket Serverでの結果) |
といった数字を拾う事が出来る。ちなみにAnsys自身での測定結果で、GenoaはMilan比で29%~70%と結構高速化しているとされており(Photo38)、恐らく1~2 Socket構成で考える限りにおいてはGenoaの方が高速と考えて良いだろう。
-
Photo36: 脚注によればpump_2m/sedan_4m/rotor_3m/aircraft_wing_14m/combustor_12m/exhaust_system_33mの各データセットを利用した比較の平均値と思われる。利用しているのはAnsys Fluent 2022R1。
もう少し公開データで、しかも実アプリケーションに近いものは? ということで、グラフ6はSPECjbb-2015の公開データから、Genoa及びSapphire Rapidsの結果を拾ったものである。Genoaは2022年Q4、Sapphire Rapidsは2023年Q1からPickupしている(どちらも2 Socketの構成のみ)。横軸はmax-jOPS、縦軸はcritical-jOPSで、どちらも数字が高いほど性能が高い。max-iOPSの方は文字通りピークのjava Operation性能、critical-jOPSの方はSLAが10000μs/25000μs/50000μs/750000μs/100000μsの場合の幾何平均で、まぁ実効性能に近い。で、当然システム構成によって多少のばらつきはある訳だが、全体的に言ってGenoaはSapphire Rapidsの2倍近いjOPSを叩き出している。maxの方は概ね2倍だが、criticalの方はそこまでいかず1.7倍程度であるが、どちらにしても圧倒的な性能差である。気になるのは、Xeon Platinum 8490Hがmax-jOPSが高い割にcritical-jOPSが低めな事である。むしろXeon Platinum 8480+の方がバランスが良い感じだが、いずれにしても性能に大差がついている事そのものに違いはない。
同様にSPEChpcの結果だが、こちらはまだ公開されている数が少ないので、表形式で。
SPEChpc2021 Tiny | SPEChpc2021 Small | |||
---|---|---|---|---|
Base | Peak | Base | Peak | |
Lenovo ThinkSystem SR665 V3(EPYC 9654) | 13.9 | 14.2 | 1.45 | 1.45 |
xFusion 2288H V7(Xeon Platinum 8490H) | 9.45 | 9.88 | 1.06 | 1.06 |
どちらもOpenMPを使った結果での比較である。ちなみにSPEChpcはテストで利用するデータセットのサイズでTiny/Small/Medium/Largeの4つがあるが、Medium/Largeは今のところ公開データが0なので比較対象となっていない。ちなみに条件で言えば、xFusionの2288H V7は1TB Memory、Lenovo ThinkSystem SR665 V3は768GB Memoryなので、どちらかと言えばXeon Platinum 8490Hが有利な筈だが、Tiny/Small程度のデータセットではメモリをそこまで使わないから差が出ないものと思われる。
同様にベンチマーク結果が公開されているものとしてはTPCがあるが、こちらは現状Genoaについては幾つか公開されているものの、Sapphire Rapidsに関しては結果が全く登録されていない。TPCはいずれも実施に結構な時間とコストが掛かるだけに、登録されるまでにはもう少し時間を要するものと思われる。
これ以外にベンチマークは? というと、phoronixが今年1月10日に、Intel Xeon Platinum 8490H "Sapphire Rapids" Performance Benchmarksを公開している。こちらは
AMD:EPYC 7713/EPYC 7763/EPYC 7773X/EPYC 9374F/EPYC 9554/EPYC 9654
Intel:Xeon Platinum 8362/Xeon Platinum 8380/Xeon Platinum 8490H
の合計9種類の構成で多数のテストを実施している(流石に結果をここで転載するのは問題があるので、興味ある方はphoronixの記事を参照してほしい)。こちらでも、Genoaのスコアがかなり良好であることが示されている。