Radeon RX 9070 XTと9070を試す - GeForce比でも優秀なゲーム性能、価格次第で化ける？

◆Sandra 20/21 31.139(グラフ92)

Sandra 20/21 31.139
SiSoftware
https://www.sisoftware.co.uk/

グラフ92

さてここからはゲーム性能以外の部分を。まずはSandraだが今回はVideo Memory Bandwidthのみである。要するに先のグラフ3と同じくPCIe経由での帯域の確認である。結果はご覧の様に、Radeon RX 9070シリーズはそれ以外の製品の倍の転送性能を発揮しており、間違いなくPCI Express Gen5が動作している事が確認できた。

◆HandBrake 1.9.2(グラフ93)

HandBrake 1.9.2
HandBrake
https://handbrake.fr

何でHandBrakeか？というと、これはMedia Encoderの性能比較である。これまでだとTMPGEnc Video Mastering Works 7を使うのが常なのだが、今回Radeon RX 9070シリーズで利用しようとしたところ、こんなエラーが出て実行できなかった(Photo50)。

Photo50: そういわれても...

恐らくなのだが、Radeon RX 9070シリーズに対応した新バージョンのAMD Media SDKを利用してTMPGEnc Video Mastering Works 7のビルドをやり直す必要があるのだと思われる。同種の事は過去にもあった。TMPGEnc Video Mastering Works 7は今年2月6日にVersion 7.1.1.36が公開されており、これを利用したのだが残念ながらまだ未対応の模様だ。

ということで他のツールを探したところ、現状でRadeon RX 9070が動作したのがHandbrakeだった、という話である。

ベンチマーク方法だが、元データ(VP9フォーマット、4K30fps、11296フレーム)をAMD及びNVIDIAのMedia Encoderを利用してHEVC(10bit HEVCフォーマット、4K30fps、Constant Quality Level 24、Main 10 Profile)に変換する時間を測定した。TMPGEncだとバッチを使って同時に複数Streamのエンコードが可能だったが、今回HandBrakeで同じ環境を実現する事ができなかったので、1streamだけでのエンコードとなっている。

グラフ93

グラフ93がその結果だが、ご覧の通りあまり芳しくない。恐らくだが、HandBrakeもまだRDNA 4のMedia Encoderに未対応(そもそもVersion 1.9.2は今年2月23日にリリースされたもので、最新のAMD Media SDKを利用しているかどうかも疑わしい)で、互換モードで動作しているためにその性能が発揮できていないのではないか？と考えて居る。この辺は今後、アプリケーションの対応が済んだ段階でないとちゃんと確認出来ないようだ。

とりあえず現状としては、動くには動くが、最適化されていないという結果となってしまった。

◆AIDA64 v7.60.7300(グラフ94)

AIDA64 v7.60.7300
FinalWire Ltd.
https://www.aida64.com

AIDA64にはBuild inのGPGPU Benchmarkが搭載されている。Sandraにもあるのだが、以前も書いたがこちら2023年末を境にメンテナンスが成されなくなっており(なんせトップページ https://www.sisoftware.co.uk の最新の話題は2023年10月末、ベンチマーク自身のバージョンも2023年12月30日リリースの31.139が最後となっている)、まともに動かない事が増えて来たので、今回はAIDA64の方を利用してみた。

Photo51: CPUのベンチマークとしても使えるのが珍しいといえば珍しいところ。あと内蔵GPUも選択できる。

さてAIDA64のGPGPUベンチマークはこんな具合(Photo51)に12項目で実施する様になっている。実際は12ではなく、例えばMemory ReadでもPinnedとPageableでそれぞれ測定を行うし、Memory Copyは15/32/64/128/256/512/1024MBの7パターンで実施して、平均をとるといった具合。Single-PrecisionならFMA Float 1/2/4/8/16とFMAC Float 1/2/4/8/16を実施しての平均値といった感じに全部で100項目のテストを行い、これを12項目にまとめて示している格好だ。ただ結果はご覧の通り、12項目がそれぞれ別の単位で出力されるのでグラフにまとめるのが難しい。なので生の結果は表2に示し、グラフ94はRadeon RX 7800 XTの結果を100%とした相対性能グラフとさせていただいた。

■表2	RX 7800 XT	RX 7900 XT	RX 9070	RX 9070 XT	RTX 4070	RTX 4070 Ti Super
Memory Read(MB/s)	25845	25943	48187	48286	24758	24930
Memory Write(MB/s)	25988	26025	47503	47521	25385	25354
Memory Copy(MB/s)	840450	933553	696487	643540	960711	1145055
Single-Precision FLOPS(GFLOPS)	38436	54928	39584	47841	31959	45810
Double-Precision FLOPS(GFLOPS)	647.5	968.4	699.0	852.2	502.4	714.0
24-bit Integer IOPS(GIOPS)	19504	28975	21105	26370	16015	23074
32-bit Integer IOPS(GIOPS)	5210	7650	5465	6586	16019	23068
64-bit Integer IOPS(GIOPS)	2288	3403	2415	2930	3853	5623
AES-256(MB/s)	62840	91938	66621	80157	56302	81166
SHA-1 Hash(MB/s)	175096	269652	238891	333852	132112	165459
Single-Precision Julia(FPS)	4823	6679	4936	5977	6164	8846
Double-Precision Mandel(FPS)	197.6	289.3	214.6	246.7	143.3	197.3

グラフ94

結果を見ると、まずMemory Read/WriteにおけるRadeon RX 9070系の性能の高さが目立つが、その割にMemory Copyが妙に遅いのはどういうことか？　あと32bit/64bitのInteger IOPSでGeForce RTX 4070/4070 Ti Superの性能が突出しているが、これは生データを見ても本当に突出しているので、恐らくはGeForce RTXではTensorRTを使って処理しているのではないか？　という気がする。ただそれを除くと概ね理解できる性能になっている。しいて言えば、Radeon RX 7900 XTが84CU×2000MHz(Game Frequency)、Radeon RX 9070 XTが64CU×2170MHz(Game Frequency:Photo11参照)だが、RDNA 4ではSIMD VectorがDualになっているので、本来ならSingle Precisionの性能とかはRadeon RX 9070 XTの方が60%位高速になっていてもおかしく無いにも関わらず、実際にはRadeon RX 7900 XTの方が高速な結果になっているというのは、ベンチマークがRDNA 4対応になっておらず、RDNA 3相当の動き方をしているという事なのだろうか？SHA-1 Hashの性能とかが本来想定される性能に近い気がする。アプリケーションのRDNA 4への最適化作業が結構広範に必要、ということなのかもしれない。

◆PCMark 10 v2.1.2704(グラフ95～100)

PCMark 10 v2.1.2704
UL Benchmarks
https://benchmarks.ul.com/pcmark10

グラフ95

グラフ96

グラフ97

グラフ98

グラフ99

グラフ100

OpenCL周りの確認も兼ねて、普通にGPUとして使えるという確認のためにPCMark 10も実施してみた。基本的にここでは大差ない筈で、実際Overall(グラフ95)を見てみるとそんな感じ。Test Group(グラフ96)を見ると差がついているのはDigital Contents CreationとGaming(要するに3DMark Firestrike)である。Essentials(グラフ97)ではApp Startupで妙にGeForce RTX 4070系が遅いが、その分Web Browsingで盛り返している。そしてProductivityではSpreadsheetでGeForce RTX 4070系が高い性能を出している。

まずApp Startupは確かにGeForce系が遅い(例えばWriterのCold StartはRadeon系が1.4秒弱のところ、2秒強を要している)。一方Web Browsingは、殆どのテストは同等だがShopLoadのテストでややGeForce系のロード時間が短いといった違いが見られる。Productivity(グラフ98)では、特にOpenCLを利用したSpreadsheetMonteCarloOclなどで処理時間が劇的に違う(Radeon系が平均2.2秒、対してGeForce RTX 4070が1.5秒、GeFoce RTX 4070 Ti Superは0.68秒)事が大きな要因となっている。

ではOpenCLだとGeForceの方が高速か？というとそういう単純な話でもない。Digital Contents Creation(グラフ99)を見ると、まずRenderingAndVisualizationは3DMark Slingshotのスコアがそのままだから仕方ないとして、例えばPhotoEditionDenoiseOcl(OpenCLベースの写真のDenoise)の処理時間は、Radeon系が0.18秒前後なのにGeForce系は0.37～0.57秒と2～3倍の時間を要しているなど、得手不得手が確実に存在している。結果から言えば、グラフ95のPCMark 10 Score(ExtendedはFireStrikeが入るから怪しくなる)が示すように、「普通に使うにはあまり差が無い」として良さそうだ。グラフ100(Office365での性能)もこれを物語っている。

◆Procyon v2.10.1542(グラフ101～107)

UL Benchmarks
https://benchmarks.ul.com/procyon

最後はProcyonだが、実はこのProcyonは昨年4月には生成AIを利用した画像生成、昨年11月にはLLMを利用したテキスト生成もサポートした。要するにStable DiffusionやLlamaなどの性能を比較できる様になったということだ。なので最後にこうしたAI性能の比較をしてみたいと思う。

グラフ101

グラフ101がOverallである。グラフがちょっとバグっているのは、GPUによって利用できるInference Engineが異なるためである。これは特にImage Generationが判りやすく、Stable DiffusionでRadeon系はONNXしか利用できないのに対し、GeForce系はONNXとTensorRTが選択できる(一部ONNXで動作しないものもある)。それもあってGeForce系ではONNXとTensorRTの両方の結果を示している。これはComputer Visionも同じで、Radeon系はWindows MLでのみの動作だが、GeForce系はWindows MLとTensorRTの両対応となっている。そんな訳でこれまでより結果の項目が多い訳だが、特にGeForce系でStable Diffusionを実施するのはONNXを使うよりもTensorRTを使う方が圧倒的に高速であり、その結果がこのグラフという訳だ。もっともここまで性能差があるのはStable Diffusion 1.5でINT 8を利用した場合のみで、他のケースではもう少し穏当な性能差になっていることが判る。

グラフ102

ということで個別に結果を見てみたい。まずそのImage Generation(グラフ102)。結果は画像生成時間で、なのでバーが短いほど高速である。もうここではRadeon系が不利なのは判り切った事で、Stable DiffusionのINT8だと概ね1枚52秒掛かっているのが、GeForceだとONNXを使っても35秒、TensorRTだと1秒前後でしかない。

ただ同じStable Diffusion 1.5でもFP16を使うと大分差が縮まる(ちなみに何故かGeForce系はONNXでFP16が使えないのでTensorRTのみ)。またGPUによる性能差が出るのがStale Diffusion XLで、こちらはFP16のみだがRadeon RX 9070/9070 TiはRadeon RX 7800 XT/7900 XTに比べて大きく処理時間を減らしている。といってもまだGeForce RTX 4070/4070 Ti Superには遠く及ばないのだが。面白いのはそのGeForce系で、ONNXを使った方が高速なことだ。どうしてこうなるのだろう？

次がText Generationである。こちらではONNX RuntimeかOpenVINO Runtimeだが、推奨はONNXということでこちらで統一している。このText GenerationはTTFT(Time to First Token)と(OTS)Output Token Speedの2つからスコアが決まり、

TTFT_Score＝C1÷Average TTFT
OTS_Score ＝C2×Average OTS
Score＝√(TTFT_Score×OTS_Score)

と算出される。C1/C2は係数で、これは利用するモデル(Phi-3.5/Mistral-7B/Llama-2-13B/Llama-3.1-8B)毎に決まっている(こちらに詳しい数値が示されている)。

グラフ103

グラフ104

ということでグラフ103にTTFTの、グラフ104にOTSの結果をそれぞれ示してみた。結果から言えば、OTSに関して言えばRadeon系も結構健闘してはいるのだが、TTFTではGeForce系の敵ではなく、結局これがスコアに響いて結果的に大差を付けられて負けという格好である。それはともかくとしてRadeon RX 9070/9070 XTは健闘してはいるものの、Radeon RX 7900 XTに及ばないのは単に最適化の問題なのか、それとも構造的な問題なのかは現時点でははっきりしない。この先最適化が進めばもう少し性能が改善するかどうかも不明である。少なくともテキスト生成という用途で言えば、Radeon RX 7900 XTとさして変わらない(とは言えRadeon RX 7800 XTよりはマシ)というあたりだろうか？

グラフ105

グラフ106

グラフ107

最後がComputer Visionである(グラフ105～107)。スコアは6種類のModelのそれぞれのAverage Inference Timeの相乗平均の逆数で計算されるのだが。そのInference Timeをそのまま示しても見にくいので逆数を取って速度(つまり毎秒当たりのInference実行数)を示してみた。

Modelによって結果に大きな違うがある訳だが、それでも全体としてGeForce系が圧倒的に有利、というのはComputer Visionでも同じである。ちなみにRadeon系はWindows ML、GeForce系はWindows MLとTensorRTの両方の結果を示しているが、そのWindows MLであってもGeForce系の方が有利というものが少なくない。ただそれでも例えばINTのInception v4とかFP16/FP32のMobilenet v3やFP32のResnet 50の様に、時々勝負になるケースも無くはないが、全体としてはやはり勝負にならない。

ただその中でRadeon RX 9070/9070 XTの性能は？というと、少なくともRadeon RX 7800 XT/7900 XTよりは改善しているものは多い。恐らくであるが、これもWindows MLのRadeonへの最適化がちゃんと行われれば、もう少し性能は改善しそうな気がする。その意味ではまだアプリケーションの最適化待ちの状態から変わらない、というのが結論になるだろう。

Radeon RX 9070 XTと9070を試す - GeForce比でも優秀なゲーム性能、価格次第で化ける？

目次

◆Sandra 20/21 31.139(グラフ92)

◆HandBrake 1.9.2(グラフ93)

◆AIDA64 v7.60.7300(グラフ94)

◆PCMark 10 v2.1.2704(グラフ95～100)

◆Procyon v2.10.1542(グラフ101～107)

編集部が選ぶ関連記事

AMD、Radeon RX 9070 XT/9070の詳細を公開 - 初のRDNA 4世代GPUがリリース秒読み

「RTX 4090級」の謳い文句は本当なのか。マルチフレーム生成が輝くミドルレンジGPU「GeForce RTX 5070」実力検証

「NVIDIA GeForce RTX 5080」レビュー！素の性能でもRTX 4080 SUPERを若干凌駕、DLSS 4でRTX 4090すら圧倒

DLSS 4のマルチフレーム生成の威力を見よ！ゲームとAIが融合する「NVIDIA GeForce RTX 5090」レビュー

関連キーワード

関連リンク

NVIDIA、旧世代GeForceとWindows 10のドライバーサポート終了スケジュールを発表

【Amazon得報】MSIのGF RTX 5070搭載のグラフィックスカードが15%オフの89,697円！

今週の秋葉原情報 - 新世代のRyzen Threadripper Proが登場、42cm簡易水冷内蔵のフルタワーも

『VALORANT』がUnreal Engine 5で刷新！ NVIDIA GeForceユーザーはドライバアップデートで備えよう

キオクシア、第9世代BiCS FLASH 512Gb TLCをサンプル出荷 - 年内に量産開始へ

「AMD Threadripper PRO 9000 WX」シリーズ発表。Zen 5コアで刷新、AMD sTR5ソケットが続投へ

このカテゴリーについて

Radeon RX 9070 XTと9070を試す - GeForce比でも優秀なゲーム性能、価格次第で化ける？

目次

◆Sandra 20/21 31.139(グラフ92)

◆HandBrake 1.9.2(グラフ93)

◆AIDA64 v7.60.7300(グラフ94)

◆PCMark 10 v2.1.2704(グラフ95～100)

◆Procyon v2.10.1542(グラフ101～107)

編集部が選ぶ関連記事

AMD、Radeon RX 9070 XT/9070の詳細を公開 - 初のRDNA 4世代GPUがリリース秒読み

「RTX 4090級」の謳い文句は本当なのか。マルチフレーム生成が輝くミドルレンジGPU「GeForce RTX 5070」実力検証

「NVIDIA GeForce RTX 5080」レビュー！ 素の性能でもRTX 4080 SUPERを若干凌駕、DLSS 4でRTX 4090すら圧倒

DLSS 4のマルチフレーム生成の威力を見よ！ ゲームとAIが融合する「NVIDIA GeForce RTX 5090」レビュー

関連キーワード

関連リンク

NVIDIA、旧世代GeForceとWindows 10のドライバーサポート終了スケジュールを発表

【Amazon得報】MSIのGF RTX 5070搭載のグラフィックスカードが15%オフの89,697円！

今週の秋葉原情報 - 新世代のRyzen Threadripper Proが登場、42cm簡易水冷内蔵のフルタワーも

『VALORANT』がUnreal Engine 5で刷新！ NVIDIA GeForceユーザーはドライバアップデートで備えよう

キオクシア、第9世代BiCS FLASH 512Gb TLCをサンプル出荷 - 年内に量産開始へ

「AMD Threadripper PRO 9000 WX」シリーズ発表。Zen 5コアで刷新、AMD sTR5ソケットが続投へ

このカテゴリーについて

「NVIDIA GeForce RTX 5080」レビュー！素の性能でもRTX 4080 SUPERを若干凌駕、DLSS 4でRTX 4090すら圧倒

DLSS 4のマルチフレーム生成の威力を見よ！ゲームとAIが融合する「NVIDIA GeForce RTX 5090」レビュー