盛況だったGTC Jappan 2012の基調講演

2012年7月26日にNVIDIAは東京ミッドタウンにおいて「GPU Technology Conference(GTC) Japan 2012」を開催した。昨年は1000人程度であったが、今年の参加者は1200人と発表された。このため、開会直後に行われたNVIDIAのTesla部門CTOのSteve Scott氏の基調講演は、ミッドタウンのAホールがほぼ満席という盛況であった。

基調講演を行うSteve Scott氏

そして、NVIDIA技術セッションでは4件、アカデミックセッションでは6件、スポンサーセッションでは15件の発表が行われた。また、共催するGPUコンピューティング研究会のセッションでは 6件の発表が行われた。さらに、CUDAではなく、OpenACCなどのディレクティブを使うGPUプログラミングのワークショップセッション、チュートリアルセッション、有料のトレーニングセッションが催され、8つの会場で並列にセッションが進むという大規模なカンファレンスである。

また、Bホールの展示会場は、NEC、日立製作所、富士通の国産3社、日本IBM、Cray、DELL、日本SGI、HPが顔を揃え、スーパーマイクロ、レノボジャパンも展示を行っていた。また、ソフトではCAE大手のANSYSを始め、エルザジャパン、プロメテックなどが出展しており、合計35社がブースを設けた。また、A、Bホールの間の通路ではポスター発表が行われ、大学の発表を中心に23のポスター発表が行われた。

展示会場の様子

ポスター発表会場の様子

GPUコンピューティングに興味がある人は、自分の分野に関係のあるセッションを選んで発表を聞き、製品については展示会場で説明員から情報を得られるということで、効率的な情報収集の場を提供しており、これが盛況の1つの理由であると思われる。

Scott氏の基調講演は、既報の5月の米国でのGTCのJen-Hsun Huang CEOの基調講演からのマイナーチェンジという感じであったが、新しい情報も多少、入っていた。それはスマホやタブレット向けのTegra 3 SoCに関するものである。Tegra 3は4個の通常ARMコアと1個の低電力ARMコアを搭載し、負荷が低い状態では、通常コアの電源をオフして低電力コアだけを動かすという構造で省電力化を行っている。しかし、チップ写真の中央の黄色く見えるARMコアは5個とも同じように見える。1個のコアでは、レイアウトは変更せず、トランジスタの特性だけを変更して低電力化を行っているものと推定される。

4+1コアのTegra 3。Tegra 2の5倍の性能で、より省電力

そして、Tegra 3を採用した製品として、MicrosoftのSurfaceとGoogleのNexus7、国内の製品としては富士通の2種のArrowsスマホを紹介した。

Tegra 3を採用したマイクロソフトのSurfaceとGoogleのNexus7

国内では富士通のArrowsスマホが最初のTegra 3搭載製品

世界で11人目、日本では初のCUDA Fellowに東工大・青木教授が就任

NVIDIAの日本代表のファーニーハウ氏の発表の中で、東京工業大学の青木教授が、今回、CUDA Fellowに選ばれたことが発表された。これは世界で11人目、日本では初で、CUDA FellowになるとNVIDIAとの共同研究や、技術情報や試作品の提供などに便宜を受けられるとのことである。

アカデミックセッションでは、青木教授が「GPUコンピューティングによるゴードンベル賞受賞への軌跡と今後-格子系流体計算、フェーズフィールド流体計算-」と題する講演を行った。

アカデミックセッションで発表する青木教授

青木教授がGPUに興味を持ったのは、姫野ベンチマークを1台のパソコンで、早く解くという理研主催のコンテストがあり、 GPUを使えば勝てるのではないかと考えたのがきっかけであったという。この時は4台のGeForce8800をPC筐体に詰め込み、優勝した。これでGPUでの流体計算のコツを掴み、よりGPUコンピューティングに傾斜していったという。

そして、ボールの後方の乱流の様子や、CTスキャンで取得した気管支のモデルから気道での空気の流れなどを複数GPUに処理を分割して高速で計算するという研究を進めた。

ボール後方の非圧縮流体の乱流の様子

気管支の空気の流れの解析

さらに、気象庁との共同研究で、次世代気象コードASUCAの完全GPU化を行った。次の図は従来の5km格子(なお、気象庁では、2012年5月に導入した新スパコンを使う2km格子の局地モデルの利用も始まっている)のシミュレーションでは雲の解像が不十分であるが、右の437GPUを使う500m格子のシミュレーションでは雲が解像できている。

従来の5km格子での台風のシミュレーション結果

437GPUを使用する500m格子の台風のシミュレーション結果。細かい雲が解像できている

格子のサイズを1/10にすると、XYZの3方向と更に、時間刻みも1/10にする必要があり、計算量は1万倍に増える。しかし、GPU1台はCPU50コア分の性能があり、500m格子でも実用的な時間で計算できるようになったという。

これらは主に流体の格子計算を使うシミュレーションであるが、今回は、合金の凝固という問題に取り組んだ。フェーズフィールド法という計算法を用いてAl-Si合金をシミュレートし、TSUBAME2.0のピーク性能の44.5%にあたる実効2PFlops(単精度浮動小数点計算を使う部分が多いので、倍精度のLINPACKより高い値が出ている)をマークし、この成果がSpecial Achievementとしてゴードンベル賞を受賞した。

この性能の達成には、CPUとGPUの仕事の分割、GPUへの仕事の割り当て、通信と計算のオーバラップなどの工夫が重要であったという。

Al-Si合金の凝固のシミュレーション。従来は左の図のように、2次元の解析や小さな部分の3次元解析しか出来なかったが、GPU最適化で1000倍大きなシミュレーションを可能とした

どのような問題でもGPUで効率的に処理できるという訳では無いが、GPU向けのアルゴリズムの開発や、チューニングにより、GPUが性能を発揮できる分野が確実に広がってきているようである。そして、これが1200人もの人がGTC Japan 2012に集まった理由である。