NVIDIAはGTC 2018にてディープラーニングの研究開発に向けた上位システムとして「DGX-2」を発表した。

  • DGX-2を上側から見たところ

    DGX-2を上側から見たところ。右側のNVIDIAロゴの付いているのは8個のV100 GPUで、その左に6個のNVSwicthのヒートシンクが見える

上の写真で8個のNVIDIAロゴがついているのがV100 GPUで、その左の6個の銅ヒートシンクと背の高い薄手のアルミのヒートシンクが付いているのがNVSwitchである。なお、アルミのヒートシンクは、銅ヒートシンクからのヒートパイプで接続されており、放熱効果を高めているのであるが、何故、一体の大きな銅のヒートシンクではなく、このような複雑な構造のヒートシンクとしたのかは分からない。

そして、次の写真は、V100 GPUのヒートシンクなどを取り除いて、本体だけを取り出して展示したものである。中央の捺印のある大きなチップがV100 GPU本体で、上下に2個ずつの8GBのHBM2 DRAMが搭載されている。

  • GPUの周りに3個の金色のパッケージが搭載されているDGX-2のV100 GPU

    GPUの周りに3個の金色のパッケージが搭載されているDGX-2のV100 GPU

次の写真はNVIDIAのTesla V100のWebサイトから切り取ってきたものである。この2つの写真を見比べると、GPUの部分はほとんど差がないが、周囲の部分が大きく異なっていることが分かる。なお、HBM2メモリは、DGX-1では4スタックで4GBであるのに対して、DGX-2では8スタック8GBと違いがあるのであるが、最上層のDRAMチップの厚みを調整して、4スタックも8スタックも同じ厚みとしているので、肉眼では違いは分からない。

2種のV100 GPUボードの違いが明らかなのは、上の写真では、金色の細長いパッケージが3個搭載されているのに対して、下の写真では16個の黒い小さなパッケージが搭載されている点である。この黒い小さなパッケージは以前からGPUに使われており、12V DCからGPUに供給する1V弱の電圧の電源を作り出すDC-DCコンバータである。GPUの消費電力が大きいので、多数個を並列にして使っている。

  • V100 GPU

    V100 GPUの写真。出所はNVIDIAのWebサイトのV100紹介ページ

では、金色の細長いパッケージは何であろうか? 実はGTC 2018の展示会場にVICORという会社がブースを出していた。次の写真はVICORの展示していたボードである。

このボードの中央右よりの金めっきの部分は大消費電力のLSIを搭載するスペースで、その上下に2つの金色の細長いパッケージがあり、少し離れた左側にもう1つの金色の細長いパッケージがある。

  • 金色の細長いパッケージを搭載するVICORのテストボード

    金色の細長いパッケージを搭載するVICORのテストボード

VICORのシステムは、「Modular Current Multiplier Driver(MCD)」というチップと、「Modular Current Multiplier(MCM)」という2種類のチップから構成される。

MCDは48V DC入力で連続出力650W、ピークでは1000Wを出力できる。MCMは連続で300A、ピークでは500Aを供給できると書かれている。MCDは46mm×9mm×4.9mm、MCMは46mm×8mm×2.7mmとなっているので、MCDの方がちょっと大きいが、どちらも驚異的な電力密度である。

  • VICORのMCDとMCMの説明図

    VICORのMCDとMCMの説明図

NVIDIAのDGX-2に搭載されているV100ではパッケージのレーザーマーキングが消されているが、GPUの左に搭載されているのがVICOR MCD、GPUの上下に搭載されているのがVICOR MCMであることは明らかである。

VICORの電源供給系は、MCMに内蔵されたトランスを使って、48Vの高電圧からGPUに供給する低電圧大電流の電源を作っている。トランスを使うので、MCMには交流を供給する必要があり、VICOR MCDは48V DCの入力から、最大48V peak-to-peakの2MHzの方形波を出力する。

そして、MCMは、例えば48:1のトランスを内蔵し、48V P-Pの方形波を1Vに降圧し、同期整流して1VのDC電源を作る。この出力電圧が設定電圧値からずれている場合は、MCDにフィードバックを掛けて方形波の振幅を調整するという仕組みになっているようである。

また、MCMの入力までは48Vのような高い電圧であり、電圧が高い分、電源電流を小さくできる。その結果、プリント板の電源配線でのI2Rのオーム損失を大幅に減らすことができる。

お分かりと思うが、DGX-2に搭載される32GBメモリのV100 GPUは48V電源で動作するのに対して、DGX-1に搭載される16GBのV100 GPUは12V電源と電源電圧が異なる。このため、両者は互換ではないのである。

しかし、16GBのHBM2ダイを32GBのダイに交換することは簡単にはできず、メモリ容量を32GBにアップグレードしようとすればV100 GPUを含めての交換になる。これは非常に高くつく。このため、アップグレートを望む顧客は多くないと見られ、互換にする必要をあまり感じなかったのであろう。

なお、NVIDIAは次のような図を32GBメモリのGPUであると称して示しているが、12V用のDC-DCコンバータのように見えるパッケージを搭載している点が間違いである。さらに、HBM2がGPUチップの上下ではなく、左右に置かれている点が間違っている。また、GPUやHBM2はフェイスダウンで実装されているので、パターンは見えず、ただの黒っぽいチップの裏面が見えるはずである。ということで、この図はいくつ間違いを見つけられるかという間違い探しみたいになっている。

  • NVIDIAのWebサイトに公開されている32GBメモリのV100 GPUと称するイメージ

    NVIDIAのWebサイトに公開されている32GBメモリのV100 GPUと称するイメージ