US in Launch Mode

2015年7月29日にオバマ大統領は、National Strategic Computing Initiative(NSCI)を出し、HPC能力に関して、米国の世界のトップランナーの地位を守ることを明確にした。

2015年7月29日にNSCI大統領令を出し、ExaFlops実現に本腰を入れ、米国のリードを維持する方針を明確化

これを受けて、エネルギー省はExascale Computing Project(ECP)を立ち上げ、アプリ、ソフト、ハードとエクサスケールシステムのコデザインとインテグレーションを行うプロジェクトを開始した。プロジェクトというのは具体的な実現手順を決めて、担当をアサインして実現していくというもので、ECPがInitiative(方針)やPlan(計画)ではなく、Projectであることが重要であるという。

DOEのExascale Computing Projectの技術的アプローチ

In Memorium

ここで、スターリング教授は主題を切り替え、今年亡くなったMarvin Minsky氏の功績を讃え、同氏を追悼した。Minsky氏はAIの父と言われ、1969年にはコンピュータ界のノーベル賞に相当するTuring賞を受賞している。

今年亡くなったMervin Minsky氏を追悼

The Flame Burns On

また、コンピュータ科学のフロンティアを走り、Minsky氏らが運んだ松明を受け継ぐ人として、昨年、Seymour Cray賞を受賞したMario Valero氏、Sidney Fernbach賞を受賞したAlexander Szalay氏、Ken Kennedy賞を受賞したKathy Yelick氏、Turinng賞を受賞したWhitfield Diffie氏とMartin Hellman氏の功績を讃えた。

Seymour Cray賞を受賞したMateo Valero氏とSidney Fernback賞を受賞したAlexander Szalay氏

Ken Kenedy賞を受賞したKathrine Yelick氏とTuring賞に輝いたWhitefield Diffie氏とMartin Hellman氏

The Elephant in the Room

そして、今年登場した100PFlopsマシンのSunway TaihuLightに話題を切り替えた。ピーク演算性能は125PFlopsで、SW26010という中国国産のプロセサを使い、10Mコアという規模である。LINPACK性能は93PFlopsで、これはピークの73%の効率である。そして、クロックは1.45GHz、メモリは1.3PB、消費電力は15.4MWである。

LINPACKで93PFlopsを達成したSunway TaihuLight。中国製のSW26010チップを使い1000万コアの規模

チップには64計算コア(CPE)と1個の制御コア(MPE)を持つグループが4つ集積されており、全体では260コアとなる。4コアはオンチップのネットワークで接続されており、PCI Expressで他のチップと接続される。各CPEは8Flop/サイクルであり11.6GFlops。各CPEは、64KBのスクラッチパッドメモリと16KB(正しくは12KB)の命令キャッシュを持つ。

1つのSW26010チップがノードを構成し、TaihuLight全体では40,960ノードがある。

SW26010チップのブロック図と諸元

システムは次のモックアップの写真のように010の形に並べられ、両側の0の部分が、合計の40キャビネットの計算ノード。中央の1の部分はネットワークシステムのキャビネットである。各計算キャビネットのピーク演算性能は3.1PFlopsである。

TaihuLightシステムの設置状況を示すモックアップ

これが意味するのは、まず、ショックと驚きである。これまで1位のTianhe-2の3倍近い性能である。そして、中国は独自でメニーコアのアーキテクチャとISAを革新した。

さらに、Gordon Bell賞候補の論文を3つも出し、本格的なアプリケーションが動いていることを示した。

また、中国はTOP500に167システム(TOP500の表彰時には167と発表されたが、リストを調べると168システムある)をランクインさせ、これは米国の165システムを上回る。そして、1位のTaihuLightと2位のTianhe-2を擁して総LINPACK性能でも米国を圧倒している。

加えて、6GFlops/Wという高効率を実現しており、TaihuLightの消費電力は驚くほど低い。ソフトウェアスタックもできており、完成度の高いスパコンである。というのが、スターリング教授の評価である。

TaihuLightの意味するもの。まず、驚き。従来の中国のスパコンと比べて、本格的で完成度が高い

しかし、これだけで即断してはいけない。メモリは1.3PBしかなく、これは本当に少ないメモリで、ピーク演算性能との比率では100:1でしかない。メモリバンド幅と演算性能の比率は、22.4Flops/byteである。

メモリが弱体であるので、HPCGベンチマークではピークFlopsの0.3%の性能しか出せていない。そして、キャッシュが無いマシンである。バイセクションバンド幅も70TB/sと非常に小さい。また、CPUのクロックも1.45GHzと遅い。

メモリ容量が少なく、バンド幅も少ない。このため、HPCGではピークの0.3%の性能しか出ない

スターリング教授は、上記の見解も即断に過ぎるかもしれないという。テクノロジの進歩が新たな最適化の方向に我々を押しやっているのかも知れない。現在では、FPUを作るのは安価であるので、たくさんのFPUを作ることは問題ではなく、FPUの高い利用効率はそれほど重要ではない。

重要なのは、メモリ容量とメモリバンド幅である。また、命令の発行速度も重要である。そして、何より、答えを得るまでの時間と消費電力が重要である。

我々は、キャッシュ階層にチップ面積と消費電力を無駄遣いしてきた。FPUの使用効率は問題ではなく、必要な時にFPUが使えることが重要である。このTaihuLightはそのように作られている。そして、我々は昔、CellとRoadrunnerでこのようなマシンを作った。

メニースレッドでメモリの利用率を高めるアプローチが正しいのかもしれないという。

テクノロジの方向性を考えるとTaihuLightのアーキテクチャが正しいのかも知れない