40GFlops/Wに迫る高電力効率を出したPFNのMN-3スパコン - SC21

2021年11月のGreen500で、39.38GFlops/Wというスコアを出し、プリファードネットワークス(Preferred Networks:PFN)は業界を驚かせた。

次の表はGreen500の上位10システムをリストしたもので、1位はPFNのMN-3スパコンで電力効率は39.38GFlops/Wである。そして、2位はSamsungのSSC-21 Scalable Moduleで33.98GFlops/Wである。2位以下のシステムが2.5GFlops/W未満の僅差で並んでいるところで、1位と2位がその2倍の5.0GFlops/Wの差は驚異的である。

PFNのMN-3スパコン (出典:PFN資料)

また、MN-3は前回のGreen500の時と同じハードウェアでありながら、ソフトウェアだけの改善で29.7GFlops/Wから39.38GFlops/Wまでエネルギー効率を改善したのも驚異的である。

Green500のTop10システム。黄色のマーカーは前回から変更のあったシステム (出典:SC21におけるGreen500発表資料のコピー)

ということで、今回もMN-3スパコンがGreen500も首位として表彰された。

39.38GFlops/WでMN-3がGreen500のトップとして表彰された (出典:SC21におけるGreen500発表資料のコピー)

なぜPFNのスパコンは電力効率が高いのか？

なぜ、PFNのMN-3スパコンとその計算エンジンであるMN-Coreの電力効率が高いのかを、PFNの土井執行役のGreen500 1位受賞記念講演から探ってみたい。

Green500で1位になったチームは、そのシステムについて受賞記念の講演を行うのがGreen500の伝統となっている (出典:これ以降はすべてSC21におけるPFNの発表資料のコピー)

PFNであるが、東京大学の卒業生によって2014年3月に創立されたベンチャー企業である。最近、東大を退官された平木先生がPFNに入社され、MN-3の開発に協力しておられるが、PFNのCEOの西川氏は平木先生の教え子でもある。

PFNは2014年3月に西川氏、岡野原氏らによって設立された。トヨタなどとも対等に提携し、日本のユニコーン企業の呼び声が高い

MN-3スパコンはPFNの自社開発のマシンラーニングスパコンである。そしてそのアクセラレータであるMN-Coreは自社開発のアクセラレータである。MN-3ノードはMN-Coreボード4枚とXeon 8260M CPU×2(48コア)に384GB DDR4メモリを持つ。それに3TBのIntel Optane DCストレージクラスメモリを付けている。ノード間はMN-Core DirectConnectという112Gbps×2のネットワークで接続している。さらにノード間にはMellanoxのConnextX-6(100GbE)×2とオンボードの10GbE×2の接続を持っている。

MN-3スパコンの外観と、縮尺は異なるが4個のチップを搭載したMN-Coreボード

なお、MN-3スパコンは、1993年から稼働している初代地球シミュレータを設置するために作られた海洋開発研究機構のコンピュータルームの一部を借りて設置されている。MN-3スパコンの電力効率は高いが、センターとしては設計が古く、PUEはあまり良くないとのことである。

MN-3はマシンラーニングのために作られたアクセラレータスパコンであるが、PFNは、HPLを使ってGreen500の実行効率の改善を行った。次の図に書いたように、

2020年6月:21.11GFlops/W
2020年11月:26.04GFlops/W
2021年6月:29.70GFlops/W
2021年11月:39.28GFlops/W

と実行効率を改善して来た。2年前から見ると2倍に近いエネルギー効率の改善を行っている。

PFNはHPLを使ってエネルギー効率の改善のチューニングを行い、2年間で、おおよそエネルギー効率を2倍に改善した

MN-Coreはすべての演算器が並列に並んで同じ命令を実行する巨大なSIMD構造になっている。MN-Coreはキャッシュのようなヒットすればメモリが速く読めるというような構造は持っておらず、命令のフェッチや実行は完全に確定的に常に同じ時間を掛けて実行される。すべての演算器が同じ命令を実行するSIMDであるので、命令のフェッチ機能は1つあれば良い。

FP64で65GFlops/Wの電力効率が得られるのは、MN-Core部分だけの消費電力の場合で、MN-3全体ではメモリやその他の回路の消費電力が含まれるので、 40GFlops/W程度の効率になってしまう。

オンチップのネットワークで階層的にSIMD演算器が接続されており、BroadcastやAggregationも行うことができるようになっている。