NVIDIA、Voltaアーキテクチャベースの「Tesla V100」を発表

米NVIDIAは5月10日(現地時間)、米国サンノゼで開催中の技術カンファレンス「GPU Technology Conference 2017」(GTC 2017)にて、次世代GPUアーキテクチャ"Volta"ベースの「Tesla V100」を発表した。

Tesla V100

Tesla V10を披露するNVIDIA 創設者兼CEOのジェンスン・フアン氏。中央にあるGPUは「Apple Watch程度のサイズ」とのこと

GPUコアに"Volta"ベースの「GV100」コアを採用。プロセスルールはTSMCの12nm FFNで、5,120基ものCUDAコアを搭載する。トランジスタ数は211億。ダイサイズは815平方mmで、前世代である"Pascal"アーキテクチャベースの「GP100」コアと比べて、1.3倍以上の規模となった。さらにディープラーニング向けに最適化された「Tensor Core」を統合する。

GV100コアのブロック図

Streaming Multiprocessorの構成

一方でメモリは従来同様に16GBの第2世代HBM(High Bandwidth Memory)を搭載する。また、プロセッサ間の接続インタフェース「NVLink」も第2世代に刷新。リンクの増加や大域幅が拡大し、最大6つのNVLinkリンクで300GB/sのデータ転送をサポートする。

演算性能はFP32(32ビット単精度浮動小数点数)で15TFLOPS、FP64(64ビット倍精度浮動小数点数)で7.5TFLOPS。動作クロックは最大1,455MHz。TDPは300W。従来世代のTeslaとの比較は以下の通り。

製品名	Tesla K40	Tesla M40	Tesla P100	Tesla V100
GPUコア	GK110(Kepler)	GM200(Maxwell)	GP100(Pascal)	GV100(Volta)
製造プロセス	28nm	28nm	16nm FinFET	12nm FFN
トランジスタ数	71億個	80億個	153億個	211億個
ダイサイズ	551平方mm	601平方mm	610平方mm	815平方mm
SM	15	24	56	80
TPC	15	24	28	40
SMあたりの32FP CUDAコア	192	128	64	64
32FP CUDAコア合計	2880	3072	3584	5120
SMあたりの64FP CUDAコア	64	4	32	32
64FP CUDAコア合計	960	96	1792	2560
ブーストクロック	810/875MHz	1114MHz	1480MHz	1455MHz
Texture Units	240	192	224	320
メモリインタフェース	384-bit GDDR5	384-bit GDDR5	4096-bit HBM2	4096-bit HBM2
メモリ容量	12GB	24GB	16GB	16GB
L2キャッシュ	1.5MB	3MB	4MB	6MB
レジスタファイル	3840KB	6144KB	14336KB	20480 KB
TDP	235W	250W	300W	300W