2015年7月のTOP500を含めて連続5回、1位を続けている中国のスパコン「天河二号(Tianhe-2)」であるが、このマシンに使用されているXeon CPUやXeon Phiアクセラレータは軍事目的には使用しないという条件で、米国からの輸出が許可されている。また、天河一号もIntelのCPUとNVIDIAのGPUを使用しており、同じ制約が課せられているという。
しかし、今年の4月に、米国商務省は中国が天河一号と二号が軍事目的に使用されていると判断されるとして、IntelとNVIDIAに対して、スパコンの部品の禁輸を命令したと報じられている。
元々、中国は、天河二号の「Xeon Phi 31S1Pアクセラレータ」を次世代のXeon Phiにアップグレードすることでピーク演算性能を100PFlopsに引き上げる計画と言われており、この禁輸にどのように対応するのかが注目されていた。
フランクフルトで開催されているISC 2015において、天河一号、二号を開発した国防科学技術大学のYutong Lu教授が基調講演を行い、その中で、次世代のXeon Phiは使わず、自前のアクセラレータ(Chine Accelerator)を開発して使用する方針であることが明らかにされた。
Tianhe-2のアップグレード版はTianhe-2Aと呼ばれており、ピーク演算性能は約2倍の~100PFlopsとなる。しかし、ノードの構成を見ると、CPUはXeon E5 2692のままで変わっておらず、アクセラレータだけがXeon PhiからChine Acceleratorに置き換わっている。つまり、アクセラレータ部だけを自前で開発して置き換えるという作戦である。
Tianhe-2Aのノード数は~18,000となっており、Tianhe-2の16,000ノードから約2,000ノード増えているが、この程度の数であれば、CPUは輸入ができなくてもストックの部品で間に合わせられると思われる。
そして、インタコネクトがTH-Express-2からTH-Express2+にアップグレードされているが、これは元々自主開発であるのでアップグレードに問題はない。
China Acceleratorであるが、「Matrix2000」と呼ぶ汎用DSPであるという。クロックは1GHzで倍精度浮動小数点演算性能は約2.4TFlops、消費電力は約200Wという。18,000個の各ノードにこのアクセラレータが3個接続されるとすると全体では129.6PFlopsで、まあ、LINPACKで100PFlops程度という計算は妥当である。
このChina Acceleratorの図には6個のコアが描かれているので、1コアあたり400GFlopsである。クロックが1GHzであるので、コアあたり400演算/サイクルと考えられる。
国防科技大は、以前からDSPを研究開発しており、その技術を使うので、新規の開発に比べて短期間で開発できるという。
そして、ソフトの面では、汎用DSP(GPDSP)用のコンパイラやOSを作り、 OpenMP4.0をサポートするコンパイラでアプリを並列化してGPDSPで走らせるようになるという。