PEZY-SCは、TSMCの28HPMプロセスで作られ、チップサイズは21mm×19.6mm(411.6平方mm)となっている。

1024コア PEZY-SCチップのダイプロット

チップの配置は、4つのPrefectureが2×2の配列で並んでおり、Prefectureの中はL3キャッシュ囲んで16個のCityが配置されている。そして左右の辺にDDR3/4コントローラとインタフェース回路が4チャネルずつ配置され、下辺に2ポートのPCIe3.0 ×8ブロックが2個と2個のARM926コアが配置されている。

PEは、2個の整数演算ユニットと2個の浮動小数点演算ユニットを持ち、単精度浮動小数点演算の場合は4演算/サイクル、倍精度の場合は2演算/サイクルの演算ができる。SFUは割り算、平方根、剰余の演算を行うユニットで16PEからのリクエストをラウンドロビンで順に処理していく。

PEは、2KBのL1 Iキャッシュと32bit×4096Wのローカルメモリを持つ。プロセサコアは、毎サイクル2スレッドのペアを選択し、各スレッドから1命令ずつ発行するデュアルイシュー方式で、4ペアのスレッドをラウンドロビンでサイクルごとに順次実行して行くことにより8スレッドを並行して実行する。

メモリインタフェースは8チャネルのDDR3/4コントローラを持ち、最高2400MT/sのDDR4をサポートしている。従って、ピークメモリバンド幅は153.6GB/sとなる。これはGDDR5を使うハイエンドGPUのメモリバンド幅には及ばないが、Xeonで言えば最上位のE7と並ぶメモリチャネル数である。一方、DDR3/4 DRAMを使うので、メモリ容量は大きくすることができ、後述する3次元積層のDDR3 DRAMを使うモデルでは32GBのメモリを搭載している。GDDR5を使うGPUでは12~16GB程度が最大であるのと比べると、1個のPEZY-SCでは2倍(ボードレベルでは4~8倍)かそれ以上のメモリが使用できる。

また、チップからは2048bit×200MHzのUltra Wide-IOのポートが2ポート出ており、PEZY-SCチップの上にDRAMを3次元スタックできるようになっている。このようなDRAMチップが標準となるかどうかは不明であるが、2014年のVLSIシンポジウムでの4μm厚までDRAMチップを研磨しても特性の劣化は見られなかったという論文発表にPEZYは名前を連ねており、独自の高性能DRAMスタックの開発にも手を伸ばしているのではないかと思われる。

PEZY-SCとDDR3 DRAMを搭載したボードは次の写真のようになっている。左端のヒートシンクが付いているのはPLX Technologyの80ポートのPCI Express Gen3スイッチである。1本の×16でサーバ側のXeon CPUに接続し、残る4本の×16で、4個のPEZY-SCに接続する。

左のヒートシンクは80ポートのPCI Expressスイッチで、右の2つがPEZY-SC。ボードの上辺と左辺についているモジュールはDC-DCコンバータ

次の写真はヒートシンクを取り外した状態でのマザーボードとドーターボードである。マザーボードのPLXスイッチの×16 2ポートは2個のコネクタでドーターボードに接続される。

この写真ではヒートシンクが無いので、PEZY-SCの両側に4個ずつ搭載されたDRAMモジュールが見える。実はDRAMは裏面にも搭載されており、PEZY-SCあたり16個のDRAMモジュールが接続されている。このDRAMモジュールは、Elpida製の4枚の4Gbit DRAMチップとインタフェースチップをTSVで3D積層したモジュールで、1個で2GBの容量を持っており、PEZY-SCあたり32GBのメモリ容量となっている。

下のボードがPCI Expressスイッチが搭載されたマザー側で、上のボードは背の高いコネクタでつながるドーターボード。両方でPEZY-SC 4個とDDR3メモリが128GB搭載されている

そして、マザーとドーターを接続するとPEZY-SCが4個で、倍精度浮動小数点演算のピーク性能が6TFlops、総メモリ容量が128GBであるが、実装サイズとしてはNVIDIAのTesla K40 GPUと同じサイズに収まる。ただし、Tesla K40よりも消費電力は大きいと考えられ、冷却についてもより効率の高い方法を検討しているようである。

マザーとドーターを接続したところ。ただし、ヒートシンクは付けていない。ドーターの裏面の16個のメモリが見える

また、同社はDDR4 DRAMを使うボードも開発している。こちらはPEZY-SCを2個搭載であり、PLXスイッチは40ポートと小型のものを使っている。DDR4 DRAMはPEZY-SCの両側に8個ずつ搭載され、裏面にも同じように搭載されているので、PEZY-SCあたり32個、16GBの容量となっている。

DDR4 DRAMチップのボード上に占める面積が大きいので、こちらのボードの奥行は、DDR3ボードより少し長くなっている。

PEZY-SC 2チップと64個のDDR4チップを搭載したボード。ヒートシンクはテープで仮止めである

僅か16名の会社が、日本でもトップレベルの高性能、高エネルギー効率のチップを開発したということは驚きであり、また、今回のインタビューで高密度のPEZY-SCボードの実物を目の当たりにして、高い目標を持って挑戦すれば、小さな会社でも大きな成果を上げられるというPEZYの信念を感じた。

PEZYは、この次は、16nm FinFETあるいは14nm FinFETプロセスを使い、2048~4096コアを集積するPEZY-SC2の開発を行っていくという。