GDDR5の後継と目されるHigh Bandwidth Memory

GDDR DRAMは、伝送速度の高速化でバンド幅を向上させてきたが、8Gbit/s程度が限界と見られている。もちろん、通信関係ではもっと速い伝送速度も実現されているが、1チップから32本の信号を出すGDDR5メモリでは、高速伝送回路の占めるチップ面積や消費電力が制約となり、現実的には8Gbit/s程度が限界と言われる。

そこで、GDDR5に替わる高速のメモリとして期待されているのが、HBM(High Bandwidth Memory)である。図3.6に示すように、HBMは4枚、あるいは8枚のメモリチップと1枚のロジックチップを3D積層し、信号や電源をTSV(Through Silicon Via:シリコン貫通ビア)とマイクロバンプで接続する。HBMのマイクロバンプは信号領域が220行×12列、電源とテスト領域が220行×18列であるが、電源とテスト領域にはプローブ用に12行分のバンプの無い領域があるので、マイクロバンプの総数は6384個となる。

なお、X方向のピッチは96μmで、偶数行と奇数行のマイクロバンプはハーフピッチずれていて、マイクロバンプの配置は千鳥(あるいはチェッカーフラグ状)になっている。また、Y方向のピッチは55μmとなっている。つまり、96×55μm2の面積に2バンプという密度である。

HBMのチャネルあたりの信号数は202本で、これが8チャネルと共通信号が64本であるので、信号総数は1680本である。マイクロバンプの総数が信号総数よりずっと大きいのは、電源、グランドの接続が多数あることと、No Connection(NC)で電気的な接続には貢献していないマイクロバンプも相当数存在するからである。NCの部分には、原理的にはTSVは不要であるが、規則的に並んでいる方が作りやすいので、NCの部分にもTSVが作られている可能性が高い。

ロジックチップの有無は規格上はオプションで、必須ではないが、SK HynixのHBMは、ロジックチップを使い、ロジックチップには故障時のメモリセル交代機能や試験関係の機能を持たせている。

そして、このHBMとGPUチップをシリコン基板(あるいはセラミック基板)上に薄膜配線層を形成して作られたインタポーザに搭載して接続する。携帯機器ではプリント板面積を節約するためプロセサチップの上にメモリを載せる実装が使われるが、発熱の大きいハイエンドGPUの場合は、放熱の観点から、重ねて搭載することは難しい。また、図3.6のインタポーザを使う実装なら、普通のロジックプロセスで作られたGPUチップが使えるが。GPUの上にHBMを載せようとすると、GPUチップにもTSVが必要となってしまう。

図3.6 HBMとそれを使うGPUモジュールの模式図

図3.6は縦方向が大きく引き伸ばされた絵で、実際のHBMの厚みは0.5mm以下である。つまりTSVによる垂直方向の接続は0.5mm以下と非常に短い。また、インタポーザ上のHBMとGPUを接続する配線も1cm程度に抑えられ、GDDR5 DRAMをプリント基板上で接続するよりもずっと短くできる。配線が短いので、その分、寄生容量が小さい。チップ間の信号伝送に必要なエネルギーはCV2fに比例するので、Cが減ると消費電力を減らすことができる。

また、半導体技術で作られるTSVやインタポーザによる接続は、プリント板による接続に比べて微細にできるので、より多くの配線を行うことができる。現在のGDDR5 DRAMとGPUとの間のデータ信号線は32本であるが、インタポーザを使えば1024本のデータ信号線の配線ができる。HBMのデータの伝送速度は当初の製品では1Gbit/s(規格としては2Gbit/sも規定されており、将来はスピードアップされる)であるので、1個のHBMスタックのバンド幅は128GB/sとなる。信号の伝送速度はGDDR5の1/7であるが、本数が32倍であるので、結果として4~5倍のバンド幅が得られる。

図3.7は、NVIDIAの次世代GPU製品である「Pascal」のモジュールの写真であるが、中央にPascal GPUチップと4個のHBMを搭載したインタポーザが見える。4個のHBMの合計のバンド幅は512GB/sである。単一GPUチップの製品では現在最高性能のK40 GPUのメモリバンド幅は288GB/sであり、これと比べるとPascalモジュールのメモリバンド幅は2倍近い改善となる。

インタポーザの両側に8個ずつのパッケージが並んでいるが、これらは電源と思われる。

図3.7 NVIDIAの次世代GPU「Pascal」のモジュールのモックアップ。中央に黒い大きなGPUチップと4個のHBMを搭載したインタポーザが見える