早稲田大学(早大)で開催されたSISA(A Strategic Initiative of Computing: System and Applications)ワークショップにおいて、米国のExascaleプロジェクトのディレクタであるアルゴンヌ国立研究所のPaul Messina氏が「Extreme Scale and Beyond」と題する基調講演を行った。

同ワークショップは、デラウェア大学のGuang R.Gao教授と早大の笠原博徳 教授が発起人となって開催されたものであるが、前述のPaul Messina氏、PCクラスタを初めて作ったインディアナ大学のThomas Sterling教授、アルゴンヌ国立研究所のAssociate DirectorのRick Stevens氏、スタンフォード大学の教授でNVIDIAのチーフサイエンティストのBill Dally氏、スイスETHの計算物理部門議長のThomas Schulthess氏、中国の863計画の主要メンバーである中山大学のDepei Quian教授など驚くほど豪華な講演者が並んでいた。

笠原先生は、IEEEのComputer Societyの2018年のPresidentに選出されており、今年はPresident Electである。これだけのメンバーが揃ったのにはPresident Electの威光が効いているのかもしれない。

米国のExascale Computing Projectについて基調講演を行うECPディレクタのPaul Messina氏

Messina氏は、2016年11月のSC16でも米国のExascale Computing Project(ECP)について講演を行ったのであるが、今回の講演は、そのときよりはかなり詳しい内容で、検討が進んできているように感じられた。

ECPは、オバマ前大統領が出したNational Strategic Computing Initiativeの一環として実用的なエクサスケールのコンピューティングシステムを開発するものである。実用的なエクサスケールスパコンとは、ミッションクリティカルなアプリケーション群の実行において、現在の20PFlopsのTitanと比較しておおよそ50倍の性能をもつことを意味している。

ECPは、これらのアプリケーション、システムソフトウェア、ハートウェアテクノロジとアーキテクチャの開発を行い、それに加えて必要となる人材を作り上げることを行うプロジェクトである。

ECPの位置づけ (このレポートのすべての図は、SISAワークショップにおけるMessina氏の発表スライドを撮影したものである)

そして、開発されるエクサスケールのシステムは、20-30MWの電力で、実アプリの実行でTitanの50倍の性能を持ち、実効的に1週間に1回以下の故障率という信頼性を目指す。

そして、ECPは2023年までの7年間のプロジェクトであるが、これには12カ月の余裕期間を含んでおり、順調にいけば6年で目標を達成することになっている。計画では、2021年にアドバンスアーキテクチャで最初のエクサスケールシステムを作り、2022年にECPのR&Dで作られたエクサスケールシステムを作り、2023年に運用を開始する。

ECPの基本計画

アドバンスドアーキテクチャは、現在の延長のアーキテクチャと比較して、現状で5倍の性能を実現でき、次の図のように時間が経つにつれてその差が広がっていき、2027年には10倍の性能を実現できるものを狙っている。

ECPは単に性能を上げるだけではなく進化の軌道を引き上げ、高性能化を加速する

アプリケーション開発、ソフトウェアテクノロジ、ハードウェアテクノロジの開発は2019年末に終わる予定である。そして、NRE #1システムは2019年の初めから開発を開始し2021年後半の完成、NRE #2システムはその1年遅れの工程となっている。並行してサイトの準備を行い、NRE #1は2021年の終わり近く、NRE #2は2023年の前半に完成の予定となっている。

ECPのハイレベルのスケジュール

ECPのアプリケーション開発は、国家安全保障、エネルギー安全保障、経済的安全保障、科学的発見、地球システム、ヘルスケアの分野にまたがっている。例えば国家安全保障のところは核兵器の管理の1項目であるが、その中には複数のアプリケーションが含まれている筈であり、全体では25のアプリケーション開発が含まれている。

ECPでは6分野の合計25アプリケーションの開発を予定している

そして、基本的なアルゴリズムとして、1.の密行列の計算、2.の疎行列の計算、3.のFFTのようなスペクトル法、4.のN体問題などの全体で13のアルゴリズムのライブラリの開発を予定している。

これらのアプリケーションで使われる13のアルゴリズム

そして、それぞれのアプリケーションが、どのアルゴリズムのライブラリを使うかを整理したものが次の2つの図である。

アプリケーションと必要とするアルゴリズムの対応表

概念的なECPのソフトウェアスタックは、次の図のようになっている。ハードウェアの上にシステムソフトウェアや資源管理などが載り、それと並列にメモリとバーストバッファ、そして、データ管理、I/O、ファイルシステムが載っている。その上にプログラミングモデルや開発環境、ランタイムと、並列に数学ライブラリとフレームワーク、ツールが載っている。

そして、左に抗堪性(故障などに耐える能力)、右にワークフローが書かれている。

概念的なソフトウェアスタック

ハードウェアテクノロジの開発は、PathForward/LeapForwardでR&Dを行い、その成果に基づいてNREシステムの開発を行う。そして次のフェーズでシステムを作る。PathForward/LeapForwardのR&DはDoEの国立研究所が初期のデザインスペースの検討などを行い、開発能力のあるベンダにR&Dを発注する。また、国立研究所はハードウェアテクノロジの開発のコデザインに参加する。

そして2番目のNREのフェーズに入るころにベンダを選定して、NREの契約やNREシステムの開発契約を結ぶ。

ECPの実施スケジュール

そして、ECPが狙い通りに実施されると、次のような成果が達成されることになると述べて、講演を締めくくった。

  • 重要なアプリケーションが2021年にエクサスケールで走る
  • 2023年には予定した6分野のアプリケーションがエクサスケールで実行できるようになる
  • 多数の計算科学者、計算エンジニア、計算機科学者などが育つ
  • エクサスケールのアプリケーションをサポートする統合されたソフトウェアスタックができる
  • PathForward R&Dの成果がエクサスケールシステムに組み込まれ、ベンダの製品ロードマップに入っていく
  • より広範な分野でより高度なアプリケーションが、産業界やミッションクリティカルな分野で開発される。これは米国のスーパーコンピューティングを将来に向けて推し進めて行くことになる

ECPの実施によって見込まれる成果