7月16日、東京ミッドタウンで「GTC(GPU Technology Conference)」が開催された。今年の参加者は1700人を超え、昨年を200人あまり上回る盛況である。今年のGTCでは、NVIDIAフェローのDavid Kirk氏が基調講演を行った。Kirk氏は1997年から2009年まで同社の主席研究員を務め、現在のGPUの興隆をもたらしたグラフィック技術の開発を主導した人である。現在は特別研究員という肩書で、自分の興味のある研究を行っているという。

GTC Japanで基調講演を行うDavid Kirk氏

そして、GTC Japanは参加人数が増えただけではなく、参加する企業の業種が拡大し、コンピュータビジョンやマシンラーニングといった新しいトピックが増えたのが特徴であると指摘した。

GTC Japanは参加企業の業種が拡大、参加者数が増えた。そしてコンピュータビジョンやマシンラーニングという新しいトピックが増えた

GPUを利用した目覚ましい成果として、画像認識を使う無人消火機の目の実現、エイズウイルスの表面の構造の解析、そして乳がんの検出精度の向上を上げた。エイズウイルスの構造が分かることにより、それを攻撃したり、増殖を阻害する薬品の開発に道が開けることになる。画像処理による乳がんの検出精度の向上は、より小さながんを見つけることができるし、同じ精度ならそれだけ検査に必要なX線量を減らすことができる。

GPUの使用により、無人消火機の目やエイズウイルスの構造の解析、乳がんの検出精度の向上などの大きなブレークスルーが実現された

そして、日本でも次に示すような成果が出ているとして、東京工業大、早稲田大、北海道大の研究を紹介した。

東京工業大のDNA配列の出現頻度のカウント、早稲田大のロボットの適応的な行動選択、北海道大の生体軟組織の手術のシミュレーションなどの成果が出ている

Imagenetが行っている「Large Scale Visual Recognition Challenge」という画像認識のコンペティションがあり、画像から、犬、人、椅子などそこに映っているものを認識する。2011年にはGPUを使っているチームはゼロであったが、2012年には13%、そして2013年には53%と過半数のチームがGPUを使っている。そして、3カテゴリともにGPUを使うチームが優勝している。このようにGPUを使う機械学習は実用に近づいている。

ImagenetのLarge Scale Visual Recognition Challengeでは、2013年には。半分以上のチームがGPUを利用し、すべての3つのカテゴリでGPU利用チームが優勝

また、機械学習は、イメージの検出以外にも顔やジェスチャーの認識、音声の認識と翻訳、ビデオの検索と分析などと応用分野が広い。

もう1つ、今回の基調講演で重点が置かれたのが自動車へのGPUの適用である。

デジタルコックピット、マルチメディアから、Tegra K1では自動運転が視野に入る

Tegra 3 GPUを使うデジタルコックピットは、すでにTesla Motorsなどの車で実用化されている。そして、能力を増したTegra 4を使ったマルチメディアサポートが進んでいる。さらにGPU能力を強化したTegra K1を使い、従来はトランクルーム一杯の機器であった、自動運転用のコンピュータビジョン機器がコンパクトになり、Audiと実用化に向けて研究を行っていることが紹介された。

現在のNVIDIAのGPUは大部分が2012年登場のKeplerアーキテクチャのGPUであり、2014年のMaxwellアーキテクチャのGPUの登場が始まったところであるが、NVIDIAは2016年をターゲットに次世代のPascalアーキテクチャのGPUの開発を進めている。

NVIDIAのGPUロードマップ。2012年のKepler、2014年のMaxwellに続いて、2016年にはPascalを出す予定

この図によると、PascalではMaxwellに比べて消費電力あたりの単精度浮動小数点数の行列積性能を5/3倍に引き上げる計画である。そして、3次元メモリとNVLINKと呼ぶ高速のリンクをサポートするという。

集積度の向上でGPUの演算能力は向上して行くが、メモリ側のバンド幅の増加は遅く、右端のグラフのように300MB/s程度で頭打ちという傾向である。これでは演算能力をフルに生かすことができない。このため、3次元積層技術を使ってDRAMメモリを積層し、それをGPUと同一のパッケージに搭載して多数の配線で接続する技術を導入する。そうすれば、破線のようにメモリバンド幅を増やすことができ、1000GB/sが実現できるという。このような接続は配線長が短いので、エネルギー的にも1/4で済み、消費電力の低減にも貢献する。

Pascalでは3次元メモリをGPUチップと同一パッケージに搭載して、メモリバンド幅を大幅に向上させる

もう1つのボトルネックがCPUとGPUの間の通信である。現在はPCI Expressを使っているが、5~12倍の性能を持つNVLINKを開発する。このリンクはCPUとGPUの統合メモリを実現し、第2世代のNVLINKでは、CPUとGPU間でキャッシュコヒーレンシを実現し、本当のメモリ統合を実現する計画である。

現在、NVLINKをライセンスするCPUメーカーはIBMだけで、IntelやAMDがライセンスするかどうかは分からない。その場合は、CPUとの接続はPCI Expressを使わざるを得ないが、複数のGPU間はNVLINKで接続して高速のキャッシュコヒーレントな接続ができるようになっている。

CPUとGPU間、あるいはGPU-GPU間をPCI Expressの5~12倍高速で接続するNVLINK。第2世代ではキャッシュコヒーレンシも実現

基調講演の後に、Kirk氏にインタビューする機会があったので、今後の一番難しい挑戦は何かと質問すると、「半導体の微細化が極限に近づき、微細化のスローダウンやトランジスタコストがこれまでのように下がらないということが予想される。これにどう対処していくかが一番難しいチャレンジと思う」とのことであった。