PSC 2009 - GPUがCPUを凌駕する時代が到来、鍵は"並列化"と"局所性"

CAD/CAM、DCCおよび、産業用もしくは学術コンピュータシステム研究・開発分野で企業、研究機関、大学において開発に携わるユーザーを対象にした「Professional Solution Conference 2009」が5月29日開催された。同カンファレンスでは、基調講演として、2009年1月よりNVIDIAのChief Scientist & Sr. VP of Researchに就任したBill Dally氏が講演していたので、その模様をお伝えしたい。

パラレルコンピューティング世界への移行期

NVIDIAのChief Scientist & Sr. VP of ResearchであるBill Dally氏

Bill Dally氏が語るところによると、現在、コンピューティングの世界は「シリアルコンピューティングの世界からパラレルコンピューティングの世界へと移行期」にあり、将来のコンピュータのパフォーマンスは、並列な部分に依存し、効率は"局所性"に起因するという。

また、「シングルスレッドのプロセッサは、スケーリングもパフォーマンスも向上していけなくなった。その結果"スループットコンピューティング"が重要となった」とし、そうした時代を迎えるに至り、「GPUがCPUを凌駕することとなり、CPUがパフォーマンスを拡張させることはない」と断じた。

トランジスタ数の増加により、処理性能が向上するという意味では、ムーアの法則が有名だが、それはプロセスの微細化により進んできた。しかし、2000年初頭に、必ずしも微細化だけで電力量の削減ができなくなったことから、この法則は適当ではなくなってきた。つまり、集積度の向上に伴うパフォーマンスの向上が実現できなくなってきたことを意味する。

一方、アーキテクチャとしては、トランジスタ数の増加をパフォーマンスの向上に置き換え、その能力をアプリケーションの実行速度に反映してきた。パフォーマンスが向上することで、アプリケーションをより高い価値としてエンドユーザーに届けることが可能となり、「食物連鎖のようにこれらはつながってきた。エンドユーザーが見出す価値というのは、このアプリケーションがより快適に動くという部分であり、パフォーマンスの向上が滞ったCPUはそういった意味ではもはや価値はなく、新しい価値が必要となっている」と語る。

トランジスタ数の増加をアーキテクチャによりパフォーマンスの向上に変え、それによりアプリケーションの価値を高めてきた

これまでPCのパフォーマンスを牽引してきたのはCPUであり、それは1980年頃から2000年頃までの約20年間において、年間52%のパフォーマンス改善を実現してきた。主なところの内訳は、ps/gate(ピコ秒/ゲート)の改善が19%、gates/clock(ゲート/クロック)の改善が9%、clocks/inst(クロック/インストラクション)の改善が18%となっている。しかし、プロセスの微細化にさまざまな課題が生じてきた2005年頃からパフォーマンスの改善は鈍化。現状、パイプラインの深さは滞っており、クロック対命令実行サイクルも数クロック程度で止まっており、年間19%程度のパフォーマンス改善にまで低下してきている。

「CPUのパフォーマンス改善速度の鈍化は良いニュースとはいえない。しかし、良いニュースもある。(トランジスタ数の増加に伴い)GPUはまだパフォーマンスの向上が続いていることだ」とDally氏は述べる。GPUは現在も年率74%のパフォーマンス改善が進んでおり、CPUのパフォーマンスの乖離は2001年の予測で2000年頃30:1だったのが、2010年頃には1000:1に広がると提示されていたが、「残念ながら、これは現実のものとなってしまった」というのが現状だと指摘する。