米NVIDIAはこのほど、Pascalアーキテクチャを採用したスーパーコンピュータ向けGPU「Tesla P100」のPCI Expressカード版を発表した。2016年第4四半期からCRAYやDELL、HP、IBM、Lenovoなどのベンダから搭載システムが提供されるという。

PCI Expressカード版「Tesla P100」

「Tesla P100」は、2016年4月の開発者向けイベント「GPU Technology Conference」(GTC)にて発表したGPUで、ディープラーニングとAI向けに開発された製品という。新アーキテクチャ「Pascal」をベースとし、製造プロセスは16nm FinFETで、メモリに第2世代HBM(High Bandwidth Memory)を採用する。

GTCで発表された「Tesla P100」はプロセッサ間のインターコネクトに独自の「NVLink」を使うことで、160GB/sの広帯域幅を実現する点が特徴の1つだったが、これはすでに稼動してる既存システムでは利用できない。今回発表されたPCI Expressカード版は、PCI Expressにより、既存システムのアップデートにも使うことができる。

「NVLink」対応版に加えて、PCI Expressカード版も新たに用意

なお、PCI Expressカード版では、「NVLink」対応版と比べて演算性能が抑えられている。具体的には単精度の浮動小数点演算性能が10.6TFLOPSから9.3TFLOPS、倍精度の浮動小数点演算性能が5.3TFLOPSから4.7TFLOPS、半精度の浮動小数点演算性能が21TFLOPSから18.7TFLOPSとなっている。また、PCI Expressカード版はメモリの容量と帯域幅が異なる2モデルを用意。1つは容量16GBで帯域幅が720GB/s。もう1つは容量12GBで帯域幅が540GB/s。 NVIDIAによると、旧世代のTesla K80はもとより、CPUベースのシステムと比較してもTesla P100のパフォーマンスは高く、ディープラーニング向けのライブラリである「Caffe」などでその差が顕著になるとしている。

Tesla K80とのパフォーマンス比較。K80はGPUを2基搭載したカードなので、2枚でも実質的には4GPUとなる。それでも2枚のP100の方が高い性能を示す。特にAMBERやCaffeではその差が大きい

CPUベースのシステムとの比較。P100搭載システム1ラックで複数ラック(VASPでは7ラック分、Caffeでは9ラック分のシステム)のCPUベースシステムのパフォーマンスが実現できるほか、消費電力も大きく削減できるとしてる