Hot Chips 26において、D.E.Shaw Researchは第2世代の分子動力学スパコンである「ANTON 2」について発表を行った。D.E.Shaw & Co.は、運用資産330億ドル(3兆円あまり)の世界最大級のヘッジファンドで、創立者のShaw博士は当然、大金持ちである。他にも大金持ちはいるが、ポケットマネーで専用スパコンを作っている人はShaw博士くらいのものである。

Shaw博士は、元々はコンピュータサイエンス分野の人で、スタンフォード大学で博士号を取り、コロンビア大学で教職にあったという経歴の持ち主だが、計算金融工学に興味を持ち、D.E.Shaw & Co.を創立したという訳である。しかし、現在ではD.E.Shaw & Co.の日常の運営からは離れ、D.E.Shaw ResearchのChief Scientistの仕事にほとんどの時間を当てているとのことである。

ANTON2について発表するD.E.Shaw ResearchのJ. Adam Butt氏

タンパク質などの性質は、アミノ酸の鎖がどのように折り畳まれるかによって大きく変化し、例えば薬などの他の物質との反応も変わってくるので、立体構造を解析することが重要となる。しかし、この計算では、対象となるタンパク質などのすべての原子の間に働く力を総当たりで計算して、分子がどう変形するかをシミュレーションする必要がある。この計算は数fs(フェムト秒)程度の時間刻みで計算する必要があり、化学反応にはms(ミリ秒)オーダーの経過をシミュレーションする必要がある。また、興味のある対象は、原子の数が10万から100万個あり、原子1個あたり、1つの時間刻みについて1万回程度の演算が必要となる。つまり、全体では、10の21乗~22乗の演算が必要となり、これは10の18乗の演算性能を持つExa Flopsのマシンでも1000秒から1万秒かかることになる。

すべての原子に働く力を2fs程度の時間刻みで計算する必要がある。しかし、原子の数は10万から100万個あり、ミリ秒程度の経過を見るには、これを1兆回程度繰り返す必要がある。(出典:この記事のすべての図は、Hot Chips 26でのButt氏の発表スライドの抜粋である)

このために、2009年に「ANTON」という分子動力学計算専用マシンを作り上げたのであるが、今回、大幅に性能アップした「ANTON2」を発表した。次の図に示すように、ANTON2ではコア数や演算パイプラインの数を増やし、クロックも向上させ、演算性能をANTONの2.73T演算から12.7T演算と4.65倍に性能を向上させている。また、演算の柔軟性を改善し、1チップで扱える原子数も増やしている。

初代ANTONと2代目のANTON2の諸元の比較

1チップが12.7T演算/sであるので、512チップの合計は6.5P演算/sとなる。これで1021演算の問題を解くには、約15万秒(41.7時間)掛かる計算になるが、実用規模の問題を現実的な処理時間で解けるマシンになっている。

ANTON2 ASICは40nmプロセスで作られ、チップサイズは408mm2である。大量のプロセサコアと演算器を積んでおり、消費電力は190Wと大きい。初代ANTONチップは富士通製であったが、2代目ANTON2チップはKoreaと書いてあるので、Samsung製と思われる。

ANTON2チップの写真と諸元

次の図は、ANTON2チップのブロックダイヤで、 Flexと呼ぶユニットとTHISというユニットをメッシュネットワークで接続している。チップ間の接続は、3次元トーラスというやり方はANTONから引き継がれている。

ANTON2チップのアーキテクチャ

Flexユニットは、256KBのSRAMに原子のデータを格納し、SIMDの演算機能を持つ4個のGC(Geometry Core)で並列処理を行う。Flexはプログラム制御であるので、柔軟な処理が可能である。

Flexユニットの構造と働き

THIS(High Throughput Interaction Subsystem)は19個のPPIM(Pairwise Point Interaction Module)からなるパイプラインを2本持ち、1個のASICで、原子間の力を毎秒2500億回以上計算できる。THISには制御用に1コアのGCが含まれており、ICB(Interaction Control Block)が外部からの原子のデータを受け取り、PPIMの計算結果を出力する。

THISユニットの構造と働き

ANTON2システムは、512ノードを8×8×8の3次元トーラストポロジで接続する。トーラスの信号線は1本あたり14Gbit/sの伝送速度を持っており、16ペアの信号線からなるリンクが6方向に出ているので、チップ全体では96組のラインペアを持ち、ANTON2 1チップで合計2.7Tbit/sのバンド幅を持ち、512ノードのキューブのバイセクションバンド幅は57Tbit/sに達する。

ANTON2は512ノードを3Dトーラスで接続する

ラックあたりの消費電力は42kWに達し、そのうちの約22kWがANTON2チップの消費電力である。これを床下からの16℃の冷気で冷却している。チップ温度は50℃と比較的低い温度に保たれている。

ラックの消費電力は42kWで、床下からの冷気で冷却する。チップ温度は50℃

ラック1本が128ノードで、この写真のように4ラックで512ノードのセグメントを構成する。

最初の512ノードセグメントが完成したのが2013年12月で、すでに複数セグメントが動作しているという

ANTON2は2012年12月にテープアウトし、2013年12月に最初の512ノードセグメントが完成し、すでに複数セグメントが稼働している。現在は、さらに台数を増やすための製造、性能チューニング、そして、このマシンを使ったバイオ化学の研究を行っているという。