米NVIDIAは5月10日(現地時間)、米国サンノゼで開催中の技術カンファレンス「GPU Technology Conference 2017」(GTC 2017)にて、次世代GPUアーキテクチャ"Volta"ベースの「Tesla V100」を発表した。

Tesla V100

Tesla V10を披露するNVIDIA 創設者兼CEOのジェンスン・フアン氏。中央にあるGPUは「Apple Watch程度のサイズ」とのこと

GPUコアに"Volta"ベースの「GV100」コアを採用。プロセスルールはTSMCの12nm FFNで、5,120基ものCUDAコアを搭載する。トランジスタ数は211億。ダイサイズは815平方mmで、前世代である"Pascal"アーキテクチャベースの「GP100」コアと比べて、1.3倍以上の規模となった。さらにディープラーニング向けに最適化された「Tensor Core」を統合する。

GV100コアのブロック図

Streaming Multiprocessorの構成

一方でメモリは従来同様に16GBの第2世代HBM(High Bandwidth Memory)を搭載する。また、プロセッサ間の接続インタフェース「NVLink」も第2世代に刷新。リンクの増加や大域幅が拡大し、最大6つのNVLinkリンクで300GB/sのデータ転送をサポートする。

演算性能はFP32(32ビット単精度浮動小数点数)で15TFLOPS、FP64(64ビット倍精度浮動小数点数)で7.5TFLOPS。動作クロックは最大1,455MHz。TDPは300W。従来世代のTeslaとの比較は以下の通り。

製品名 Tesla K40 Tesla M40 Tesla P100 Tesla V100
GPUコア GK110(Kepler) GM200(Maxwell) GP100(Pascal) GV100(Volta)
製造プロセス 28nm 28nm 16nm FinFET 12nm FFN
トランジスタ数 71億個 80億個 153億個 211億個
ダイサイズ 551平方mm 601平方mm 610平方mm 815平方mm
SM 15 24 56 80
TPC 15 24 28 40
SMあたりの32FP CUDAコア 192 128 64 64
32FP CUDAコア合計 2880 3072 3584 5120
SMあたりの64FP CUDAコア 64 4 32 32
64FP CUDAコア合計 960 96 1792 2560
ブーストクロック 810/875MHz 1114MHz 1480MHz 1455MHz
Texture Units 240 192 224 320
メモリインタフェース 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2 4096-bit HBM2
メモリ容量 12GB 24GB 16GB 16GB
L2キャッシュ 1.5MB 3MB 4MB 6MB
レジスタファイル 3840KB 6144KB 14336KB 20480 KB
TDP 235W 250W 300W 300W