図2.1 Gauss賞受賞記念講演を行うノートルダム大のPeter Kogge教授

ISC 2015で、ノートルダム大学のPeter Kogge教授の「Updating the Energy Model for Future Exascale Systems」という論文がGauss賞に選ばれ、受賞記念講演が行われた。なお、この賞は、数学分野のGauss賞とは別物である。

米国の国防総省の研究を推進するDARPAは、2007年に「2018年までにスパコンの性能を1000倍に引き上げExaScaleのシステムを作ることが可能か」という命題を検討するワーキンググループを作って検討を行った。このワーキンググループを率いたのがPeter Kogge教授である。

2008年のExaScaleシステムの報告書

ワーキンググループは2008年に報告書を出し、その報告書には1000倍の性能のExaScaleシステムの実現には、メモリの密度やバンド幅、超並列のプログラミング、信頼性(Resiliency:坑堪性、回復力)などの解決すべき課題があるが、その中でも、消費電力(=エネルギー)が最大の問題であることが指摘された。

図2.2 2008年の検討。2008年の1PFlopsのシステムを1ラックに入れ、それを1000ラックで1ExaFlops。しかし、実現には4つの問題がある。その中で電力が最大の問題 (以下の図の出典:ISC 2015に於けるKogge教授の講演スライド)

そして、これが適当な使用状態とは限らないが、一応、Linpackの実行時の性能や電力を評価条件として、2018年までに、1ExaFlopsのシステムを20MWで動かすという目標を実現する検討を行った。しかし、過去のしがらみのない完全な新設計で、非常にアグレッシブな設計を行ったとしても、67MW以上を必要とするという結論となった。そして、この検討では考慮していない要素があり、より詳細な検討が必要という結論であった。

図2.3 LinpackでのFlops/sとFlops/s/Wで評価。1ExaFlop/sを20MWの目標は非常にアグレッシブな完全な新設計でも無理。67MW以上になる。これでもすべての要素は考慮されていない

ExaScaleシステムのエネルギーモデルをアップデート

2008年の報告書以降にも何回か修正を行っているが、今回のGauss賞を授賞した論文は、ExaScaleスパコンのエネルギーモデルをアップデートしたものである。

図2.4はプロセサのトランジスタなどのフィーチャサイズ(Feature Size:最小寸法)Fの年次推移を示すもので、青い実線は2006年のITRS(International Technology Roadmap for Semiconductors)の予測、赤い破線は2013年のITRSの予測である。そして×はIntelのXeon CPUのFの推移、四角はTop10スパコンのCPUのFの推移である。これを見ると、プロセサチップのFは、ITRSの予想を上回る進展を見せている。

なお、ITRSのロードマップの示す時期は、業界のトップ2社が実現できる時期を示すことになっており、このところIntelの微細化が他社より早いので、Xeonの時期がITRSの時期より早いという現象が生じている。

図2.4 半導体素子のフィーチャサイズFの年次推移。Xeonでは、実線のITRSの予想よりFが小さくなっている

微細化によるFの縮小に比例して電源電圧を低減することにより、消費エネルギーがFの3乗に比例して低減するというのがデナードスケーリングであるが、図2.5に示すように、2004年頃から電源電圧Vddがほとんど下げられなくなっている。これはデナードスケーリングを維持するためには、トランジスタのスレショルド電圧Vthも電源電圧に比例して下げる必要があるのであるが、Vthを下げるとリーク電流が指数関数的に増加して、電源電圧低減による削減分以上に消費電力が増えてしまうからである。

図2.5 Vddの低減はフラットになり、F比例で無くなってしまった

電源電圧のスケーリングの鈍化が大きな影響

図2.6は電源がFに比例する理想的なデナードスケーリングが成り立つ場合、2004年以前のF0.7の場合、2004年以降のF0.2の場合のクロック、コア電力、電力密度、サイクルあたりの消費エネルギーをまとめたものである。

サイクルあたりのエネルギーを比べると、デナードスケーリングが成り立つ場合はF3であるが、2004年以前はF2.4、2004年以降はF1.4となる。これではピンと来ないかも知れないが、例えばFが1/4に微細化されたとすると、F3の場合の消費エネルギーは0.0156倍となるが、F2.4 の場合は0.0359倍、F1.4の場合は0.1436倍と計算される。つまり理想のケースと比べると、2004年以降の状況では、微細化によって得られる消費エネルギーの低減効果はほぼ1/10しかないということになっている。

図2.6 デナードスケーリングではサイクルあたりのエネルギーはF3であるが、2004年以前はF2.4、2004年以降はF1.4

消費電力を抑えるため、現実的にはクロック周波の向上は頭打ちになっている。これに合わせて、クロック周波数一定という条件で、横軸にFの値を取り、ダイ(Die、チップ)あたりのコア数やコアの消費電力などを表したものが、次の図2.7である。左端のF=100(nm)の場合を1.0に正規化すると、右端のF=5(nm)では、一番上のCycles/Dieは60~70倍になり、コアの電力はおおむね1/100となる。しかし、電力密度は7倍程度に増加するという傾向になる。

図2.7 2004年以降のVdd低減トレンドでクロック一定とした場合のエネルギーや発熱密度とフィーチャサイズの関係