米国NVIDIA社は、サンノゼ市で開発者向けのイベントGPU Technology Conference(GTC)を25日(米国時間)から開催。初日の朝、同社の創業者である社長兼CEOのジェンセン氏が基調講演を行った。

基調講演の中での発表項目はいくつかあるが、まとめると、

  • 新GPUアーキテクチャ Pascal
  • Keplerデュアルコア搭載のGPUボードGeForce GTX TITAN Z
  • グラフィックスアプライアンス IRAY VCA
  • Tegra系の新ロードマップ(TegraK1の後継としてMaxwell搭載のEristaが登場)
  • TegraK1搭載の車載モジュールJetson TK1

というものだ。このほか、NVIDIAのGPU仮想化技術にVMWareが対応したことなどがある。

「Pascal」は独自のCPU接続インタフェースと3Dメモリ技術を採用

まず、次世代のGPUアーキテクチャであるPascalだが、最大の特徴は、CPUとの接続に「NVLink」と呼ばれる新しいインタフェースを使い、さらにメモリチップを積層した3Dメモリ技術を採用することだ。このため、Pascalは、プロセッサとメモリ、GPUが一体になったモジュールとして公開された。

Pascalモジュールのプロトタイプを見せるNVIDIA社CEOのジェンセン・ファン(Jen-Hsun Huang)氏

現時点では、NVLINKを利用するためには、専用のプロセッサ(PowerPCアーキテクチャのもの)が必要となる。簡単にいうとNVLINKは、インテルプロセッサにあるQPIのようなものだ。高速のシリアルリンクという点では似ているが、電気的、プロトコル的な互換姓があるわけではない。そもそもNVLINKは、プロセッサとGPUを密に結合するためのものなので、NVLINKはCPUから直接出ていなければ意味がない。Pascalアーキテクチャの出荷は2015年とされているが、それまでに他のCPUが対応するかどうかは不明だ。もっとも、Pascalの内部アーキテクチャはまだ未公開で、この部分でも性能向上はあるはずなので、現在のGPUの後継として一般PC向けにはNVLINKを使わないデバイスも用意されるのではないかと見られる。

NVLINKは、PCI Expressの5から12倍高速なCPUとGPUの接続技術。差動回路で埋め込みクロックを利用する高速なシリアル接続でインテルのQPIやPCI Expressなどに似ている。ただしキャッシュのコヒーレンシを保つ技術は、第2世代で対応することが予定されていて、第一世代ではCPUとのキャッシュコヒーレンシはおこなえないようだ

NVLINKは、GPU間の接続にも利用可能だという。PC向けには、このように複数のGPUを搭載してNVLINKで接続し、PCI Expressスイッチを介してCPUと接続することになると思われる

メモリダイを積み上げて、縦に接続する3Dメモリを採用することで、転送帯域を拡大し、底面積あたりの容量を増加、4倍のエネルギー効率を達成するという

次世代GPUであるPascalは、モジュール構成となり、NVLINKによりPCI Expressの5~12倍の速度を達成し、メモリ帯域は2~4倍となる

Pascalのモジュールは、現在のPCI Expressカードに比べて1/3の大きさだという

縦軸は、SGEMM演算(CUDAによる行列の積和演算)の結果を正規化したもので簡単にいえばGPUの演算性能を示す。これによれば、PASCALは、Maxwellの1.6倍の性能を持つ

カード単体価格で30万円オーバーの「GeForce GTX TITAN Z」

GeForce GTX TITAN Zは、KeplerアーキテクチャのGPUを搭載したGPUボード製品だ。2,999ドルという「ハイエンドグラフィックスカード」で、12ギガバイトのメモリを搭載、8テラFLOPSの性能があるという。基調講演では、Unreal Engineを使ったデモ画像が公開されたが、たしかに「実写」のような映像になっていた。また、Googleが行った1千万枚の画像認識処理(1,000台のマシン、合計16,000コアで3日間かかった)ではハードウェアコストに5百万ドルが必要だったが、TITANを使うことで、1万2,000ドルでこれを実現、消費電力でも600キロワットが2キロワットまで下がったという。

ジェンセン氏は、TITAN Zの実物を公開

2つのGPUに5760のCUDAコアを搭載したTITAN Zは、12ギガバイトのメモリを搭載し、8テラFLOPSの性能を持ち、2999ドルで販売される

Googleが2013年に行った大量の画像認識の実験では、Google Brainと呼ばれる1,000台のマシン(合計2,000CPU/16,000コア)のシステムが利用された。その消費電力は600キロワットで価格は5百万ドルだったが、Stanford LabがGPUを使って同様の処理を行ったところGPUサーバー3台(12GPU/18432コア)のマシンで同様の処理が可能だったという。その価格は5万3千ドル、消費電力は4キロワットだったという

TITAN Zで同様の処理を行わせると、3枚のTITAN Zで同様の処理が可能で、システム価格は1万2,000ドル、消費電力は2キロワットと、Googleの論文に比べ、300倍の電力効率、400倍の価格比になるという