無錫スパコンセンターのZhao Liu氏

神威・太湖之光について発表する無錫スパコンセンターのZhao Liu氏

このワークショップで神威・太湖之光を発表したのは、無錫スーパーコンピューティングセンターのZhao Liu氏。暁光を発表したのは、理研の戎崎宇宙物理研究室の戎崎俊一氏である。

神威・太湖之光スパコンは神威シリーズの3代目

神威(Sunway)シリーズのスパコンは1998年の完成したSunway 1から開発が始まっており、2011年にはSunway Blue LightがTOP500で14位になった。そして、それに続く3代目のマシンがSunway Taihu Light(神威・太湖之光)である

  • Sunwayシリーズの3代目となる神威・太湖之光

    Sunwayマシンは1998年のSunway-Iから始まり、2011年のSunway Blue Light、Sunway Taihu Light(神威・太湖之光)は3代目 (この連載の太湖之光の部分のすべての図は、Zhao Liu氏の発表資料の抜粋である)

太湖之光のSW26010はヘテロメニーコアプロセサ

太湖之光のCPUチップは「SW26010」という。次の図に示すように、SW26010はManagement Processing Element(MPE)とComputing Processing Element(CPE)のクラスタがそれぞれ複数個あり、それらがNetwork on Chip(NoC)で結合されているヘテロメニーコアのアーキテクチャとなっている。また、Intelligent Memory Processing Element(IMPE)とSystem Interface(SI)もNoCにつながっている。

  • SW26010は4個のMPEと4つのCPEクラスタを集積する

    SW26010は4個のMPEと4つのCPEクラスタを集積する。また、IPMEメモリコントローラとシステムインタフェースを持ち、これらすべてがNoCでつながっている

CPEクラスタは2次元に配置された64個のCPEを2次元のメッシュネットワークで接続している。CPEクラスタにはクラスタコントローラが付いており、クラスタコントローラは、DMA命令を処理するストリーミングエンジンやCPE間の処理の同期を行う機能、MPEとのキャッシュコヒーレンス処理機能などを持っている。

  • 太湖之光のCPEクラスタは8×8のCPEを2次元メッシュネットワークで結合している

    CPEクラスタは8×8のCPEを2次元メッシュネットワークで結合しており、それにDMAエンジンや同期処理などを行うクラスタコントローラが付いている

MPEはOSやランタイムなどを実行するよう設計された汎用のプロセサコアであるが、CPEは並列に計算処理を実行するための、小さな計算コアとなっている。

CPEは命令キャッシュは持っているが、データキャッシュはなく、スクラッチパッドメモリを使うアーキテクチャとなっている。実行パイプラインは2本であるが、命令の実行はインオーダである。

  • CPEはインオーダ実行のコア

    CPEは、インオーダ実行のコアで、データキャッシュは持たず、64KBのスクラッチパッドメモリを使って計算処理を行う

システムは5階層の実装で、1064万9600コアで構成されている

太湖之光は、「計算ノード」、「計算ボード」、「スーパーノード」、「キャビネット」、「システム全体」という5階層の実装となっている。この写真は計算ボードで、2個の白い四角がSW26010チップである。

  • 2個のSW26010チップを搭載する太湖之光の計算ボード

    2個のSW26010チップを搭載する計算ボード

スーパーノードは2枚の計算ボードを並べてキャビネットに取り付けられる形にしたものである。そして、キャビネットは40枚のスーパーノードを収容する。

  • 太湖之光の40枚の計算ノードボードを収容するキャビネット

    40枚の計算ノードボードを収容するキャビネット

SW26010チップは256CPEを集積しており、スーパーノードには4個のSW26010が搭載されている。そして、キャビネットには40枚のスーパーノードが搭載されている。(1+8×8)という計算がどうなっているのかよくわからないが、全体では65キャビネットがあり、太湖之光全体では、10,649,600 CPEというシステムになっている。

なお、ロッカーは010の形に並べられており、2つの0が計算ノードのロッカーで、中央の1はノード間の通信を行うインタコネクトのロッカーである。

  • 10の形に並べられた太湖之光のロッカー

    010の形に並べられたロッカー。2つの0で65キャビネットを収容する。1の部分は、計算ノード間を接続するスイッチを収容している

(次回は3月14日に掲載します)