Top500 4位、国内1位の暁光スパコン

理化学研究所の戎崎俊一氏

暁光について発表する理研の戎崎氏

海洋開発研究機構(JAMSTEC)に設置されている暁光スパコンは、2017年11月のTOP500では4位で、国内では1位のスパコンである。なお、暁光はシステムが動き出してから性能提出まで時間が短く十分なチューニングができず、昨年11月のTOP500では19.1PFlopsであったが、その後もチューニングを続け、約1か月遅れの12月13日には 20.41PFlopsと目標としていた20PFlopsを超えた。

読者の方々も各所の報道でご存じかと思うが、PEZYの齊藤氏がNEDOの助成金を不正に受給したという容疑で逮捕されたことの影響で、このヘテロジニアス・メニーコアワークショップは当初予定されていた12月から、2月の27、28日に延期されて開催されることになった。なお、現在は、齊藤氏は社長の辞任届を提出しており、PEZYは後任の選出を進めている。また、不正に受給したとされる助成金は、追徴金を加えて合計約9億円が返済されている。

暁光はフロリナートによる浸漬液浸冷却

暁光スパコンはフロリナートによる浸漬冷却を使っている。液浸であるので、熱を運び出す効率が高く、小型にできるというメリットがある。また、空冷のようなファンの騒音も発生しない。

  • JAMSTECに設置された暁光スパコン

    左の写真は海洋開発研究機構に設置された26タンクからなる暁光スパコン。右は1個のタンクを上から覗き込んだ写真である (これ以降のすべての図は、ヘテロメニーコアワークショップでの理研の戎崎氏の発表資料の抜粋である)

暁光は1986万コアで、TOP500で最大のコア数のスパコン

暁光は、26タンクに2万個のPEZY-SC2チップと1250個のXeon Dチップを収容している。合計のコア数は、1986万で、これはTOP500システムで最大である。

開発の当初は、16個のPEZY-SC2と1個のXeon Dで1ノードという形態のZettaScaler 2.0(ZS2.0)というモデルであったが、HPL性能を測定した時点のシステムは8個のPEZY-SC2に1個のXeon Dを付けるZettaScaler 2.2(ZS2.2)というモデルになっている。

実は、ヘテロジニアス・メニーコアワークショップでの戎崎氏の発表はZS2.0の諸元で書かれており、HPL測定に使われたシステム構成とは異なっている。このレポートで引用した戎崎氏の図はZS2.0のものであるのでZS2.2とは食い違う点があるが、ZS2.2の正しい数値を文中で記述して行く。

暁光はZS2.2の8 PEZY-SC2ノードを、1250ノード、26台の浸漬液冷のタンクに収容し、100GbpsのEDR Infinibandでノード間を接続したシステムである。各ノードはMPIなどを処理する16コアのXeon D-1571 プロセサを持ち、ヘテロメニーコアノードになっている。

暁光のInfiniBandネットワーク

ZS2.0の836ノードの接続ネットワークは、次の図のようになっている。暁光のハードウェアはPEZY-SC2カードを32枚含むブリックという単位が基本になっており、1つのタンクには16ブリックが収容できる。

ZS2.2では、32枚のPEZY-SC2カードを4ノードに分割し、タンク当たり64ノードを収容する。26タンクでは最大1664ノードを収容できるのであるが、暁光で実装されているのは1250ノードである。

ZS2.2では、ZS2.0と比べてタンク内のノード数が倍増しているので、4個のIB Switchがタンク内に実装されており、各IB SwitchからはEDR×4本が2組でいる。これをディレクタスイッチに接続して全システムの接続を行う。 暁光では648ポートのMellanoxのCS7500ディレクタスイッチを使っているが、現状では、そのうちの16ポート×26の416ポートしか使っていない。

なお、筆者の個人的感想を言わせてもらうと、ノードからディレクタスイッチへの接続がIBリンク16本というのはタンクに入れたMellanoxのSB7790スイッチが36ポートしかないことからの妥協と思われるが、通信パターンによってはバンド幅ネックになってしまう。また、ディレクタスイッチが1台であることは、このスイッチが故障すると全系が止まる恐れがある。CS7510スイッチ2台で半分ずつの処理を分担し、1台のディレクタスイッチが故障しても、バンド幅は減るが、一応、通信は途切れないという構成にする方が望ましい。

  • 暁光のシステムネットワークの接続図

    暁光のシステムネットワークの接続図。SC2ノードはタンク内に搭載した2台の36ポートスイッチと648ポートのディレクタスイッチを使って接続されている。なお、この図はZS2.0のもので、ZS2.2では8PEZY-SC2が1ノードで、タンク内のInfiniBand(IB)スイッチは4台となっている

(次回は3月16日に掲載します)