PCテクノロジートレンド 2017 - 次世代CPU/GPU、メモリはどうなる?

AMD GPU - ハイエンドに向けて"Vega"を投入

Photo34:どう見ても行き倒れにしか見えないのだけど、本人的には暖かい場所で気持ちよく寝ているの図。デジタルズームなのでちょっと画質が荒い

2016年はPolaris FamilyのRADEON RX 460/470/480が出ただけで終わってしまったのはちょっと残念であるが、2016年12月にVegaベースのRADEON Instinct MI25を発表している。

FP16で25TFlops、300Wという数字しか現時点では公表されていないが、PolarisベースのRADEON RX 480がFP32で5.8TFlops(2304SP×1266MHz×2 Ops/cycle)とされており、ここからある程度推察は出来る。

まずVegaでは、GCNの世代が少し新しくなり、FP16のフルサポートが入るのであろう。PolarisでもFP16のサポートはあったが、この際の演算性能はFP32と変わらないものだった。Vegaでは競合製品などと同じように、FP16の演算性能がFP32の場合の2倍になったものと思われる。すると、RX 480と同じStream Processor数だとしても

2304SP×1266MHz×4 Ops/cycle＝11.67TFlops

となる。さて、Vegaのシェーダ(AMD用語ではSP:Stream Processor)数がいくつかは諸説あるのだが、2016年の早い時期には4096という数字が良く出ていた。実際AMDのダイサイズは、同じクラスのNVIDIAの製品より少しダイサイズが小さめの傾向がある。P100のダイサイズが610平方mmで3840シェーダ(NVIDIA用語ではCU:CUDA Core)であることを考えると、4096は、ぎりぎりこの条件を満たす感じの数字ではある。ただここから逆算するとRADEON Instinct MI25の動作周波数は \ 25TFlops÷4 Ops/cycle÷4096SP≒1526MHz

となって、ちょっと動作周波数が高すぎる気がしなくも無い。個人的には、5120シェーダくらいまでダイを大型化し、動作周波数を1220MHzあたりで抑えるといった方が納得しやすい。

あるいは大穴として、3072シェーダ程度のダイ2つを、それこそCoWoSの様な形でシリコンインターポーザ上に実装するというやり方もアリだろう。この場合、動作周波数は1GHzそこそこで済む計算になる。この方式のメリットは

１個のダイサイズは小さくて済むので、Yieldが上げやすい。製造原価も下がる。
2つ搭載したモデルと1つ搭載したモデル、という形で派生型を作りやすい。

一方のデメリットは、CoWoSはそもそもTSMCの技術であり、GLOBALFOUNDRIESが同種の技術を同じように提供できるとは限らない。Silicon InterposerはRADEON R9 Furyの時代に実現しているが、これは28nm世代のもので、Interposerそのものはともかく、そことダイを繋ぐ部分の技術は新開発する必要があるというあたりだろうか。

5120シェーダともなると、700平方mmを超えるダイになりそうだし、だからといって600平方mm程度のダイを1.6GHzで動かせるのか? というと、これまた自信がない(RYZENもここまで巨大なダイではないだろう)。というあたりで筆者としては消極的にVega世代を2ダイ構成ではないかと考えている。

話を戻すと、この世代ではHBM2が使われるのはもはや規定路線である。先のHynixのスライド(Phtoo30)にもあるように、この世代では容量がかなり自由に選べるから、例えばハイエンドは2Hi構成のHBM×4でで8GB・1TB/sec構成。ミドルレンジでは4HiのHBM×2で8TB・512GB/secとか2Hiながら1.0/1.6Gbps品を使って8TB・512or816GB/sec、などと容量とメモリ帯域を色々調整できる。このあたり、選択肢が無かったRADEON R9 Furyの時より商品構成は自由に選べそうだ。

気になる投入時期であるが、今のところ2017年Q2という話が伝わってきているだけである。現実問題としては、2017年のGDC(2月)には多分間に合わず(あるいは発表だけ先にするかもしれないが)、5月くらいの出荷になりそうである。

ちなみに派生型がどのくらい出てくるかは現状よく見えない。既存のRX400シリーズも当面はそのまま継続販売ということになるようで、なので最大のイベントがVegaシリーズの投入というのが2017年中にあるという程度。次のVega+に関しては、2018年以降になるだろう。

ただこれはGLOBALFOUNDRIESの7nmが、どこまでスケジュール通り行くかどうかという部分にも掛かっており、もしこれが難航するようであれば、繋ぎとしてSamsungの10LPPあたりを採用した世代が投入される可能性もありそうと筆者は考えている。