SC18において、産業技術総合研究所(産総研)の関口智嗣 理事がABCI(AI Bridging Cloud Infrastructure)について招待講演を行った。ご存知のように、ABCIはTop500では世界7位であり、日本国内ではトップの日本を代表するスパコンである。ABCIは2018年6月26日に記者発表などが行なわれたが、今回はSC18という世界の舞台での正式発表とも言える講演である。

なお、産総研の英語名はNational Institute of Advanced Industrial Science and Technologyで、略称はAISTである。

  • 産総研の関口理事

    SC18でABCIについて招待講演を行う産総研の関口理事

産総研の前身は、明治24年に発足した電気試験所で、1952年にリレー式のETL Mark Iコンピュータ(試作機)を開発、1957年には次の写真の左上に写っているトランジスタ方式のETL Mark IVを完成させている。その後も1987年にはデータフロー型のSigma-1を開発するなど、日本のコンピュータ開発の中で長い歴史を誇っている。また、1987年にはCray-XMPの導入、1998年にはDEC Alphaクラスタを導入するなどコンピュータの利用でも先端の研究所である。

  • 産総研のコンピュータの歴史

    産総研はその前身である電気試験所時代を含めると、コンピュータの開発や利用に関して、長い歴史を持ち、かつ先端を走っている研究所である (このレポートのすべての図は、SC18における産総研の関口理事の招待講演の発表スライドを撮影したものである)

ABCIで解析するものは、

  1. エネルギー、環境
  2. ライフサイエンスやバイオ
  3. 情報テクノロジとヒューマンファクタ
  4. 物質と化学
  5. エレクトロニクスと製造

などの分野である。なお、この研究には、産総研地質調査総合センターや計量標準センターも参加している。

  • ABCIの活用分野

    ABCIは、1.エネルギー、環境、2.ライフサイエンスやバイオ、3.情報テクノロジとヒューマンファクタ、4.物質と化学、5.エレクトロニクスと製造分野の研究開発に使われる

人工知能に関するグローバル研究拠点整備には200億円の補正予算が投じられた。その内でABCIの建設に使われたのは50億円である。

  • ABCIの整備には50億円がかけられた

    2016年度の補正予算で、人工知能関係の拠点整備には200億円が投じられ、その内の50億円がABCIに使われた

ABCIは世界初のオープンな大規模AI基盤設備であり、130-200 AI Flopsの性能を3MW以下の電力で実現し、PUEは1.1以下(コンピュータの消費電力に比べて、冷却を含めた総電力は1.1倍以下)である。そして、AIやビッグデータアルゴリズムやアプリケーション開発や実行に使用するオープンな基盤であり、日本のAIに関する学会と産業界の協力を加速するためのプラットフォームである。

  • AI性能は世界トップレベル

    AI性能は130-200PFlopsの世界でもトップレベルのAIとビッグデータ向けのオープンなデータセンターである。日本の学会と産業界のAIのR&Dを加速するプラットフォームである。なお、ABCIの設置場所は東大のキャンパスなので、東大のロゴが付いている

ABCIセンターは1階建ての低コストの建物である。建屋の面積は18m×24m、高さは8mである。床はハードコンクリートで2トン/m2の荷重に耐えられる。

この建屋には最大144本のラックを収容できるが、現在、設置されているのは90本である。電力供給能力は最大3.25MWで、冷却能力は3.2MWである。

  • AIデータセンターの3Dモデル

    AIデータセンターの3Dモデル。右側の矢印で示された低層の建物がデータセンター棟である。最大144本のラックを収容できるが、現在、設置されているのは90ラックで約50%の拡張余裕がある

データセンター棟は簡単な構造なので、建設は6か月以下で完成した。

  • データセンターは2~3か月で完成

    右下の写真のように、2017年10月30日にはないが、12月2日の写真では建物が立ち上がってきている様子が見て取れる。そして2018年1月30には一応、出来上がった姿となっている

ラックは背の高い特別なもので、関口理事と比べて、次の写真のように見える。

  • 背の高いABCIのラックと関口理事

    背の高いABCIのラックと関口理事

計算ノードは1088ノードあり、総AI演算性能は550PFlopsを超え、476TiBのメモリと1.6PBのNVMe SSDを搭載する。ストレージはDDNのSFA14Kで構成されるGPFSで22PBの容量を持つ。

ノード間を接続するインタコネクトはEDRのInfiniBandである。

  • ABCIの諸元

    ABCIの計算能力は550Peta AI Flopsに達し、476TiBのメモリと1.6PBのSSDを持つ。計算ノードはEDRのInfiniBandで接続される。ストレージは22PBのGPFSである

計算ノードはCPUとしてXeon Gold 6148を2個使い、それにNVIDIAのV100 GPUを4個接続している。CPUとGPUはAsetekのコールドヘッドで水冷されている。

  • 計算ノードの概要

    計算ノードはCPUとしてXeon Gold 6148を2個とV100 GPU 4個で構成されている。CPUとGPUは水冷である

サーバルームの中は、ラック、水冷パイプ、空冷のダクト、ケーブルなどを通すスケルトンフレームとなっている。35℃の冷却水を供給し、ラックからの排水は40℃という設計でサーバルームの中は非常に暑い。ラック当たり最大70kWの消費電力で、そのうちの60kWを水冷し、残りの10kWは空冷している。

この図には書かれていないが、40℃の水はクーリングタワーで35℃に冷却されてサーバラックに戻るので、冷却にはコンプレッサーは使っておらず必要な電力は小さくPUEが非常に小さい冷却システムとなっている。

  • サーバラックの冷却の仕組み

    サーバラックの消費電力は70kWで、その内の60kWを水冷している。サーバラックの上にFan Control Unitがあり、空冷分の10kWで温まった空気を35℃の水で冷却する。その上には冷却水のパイプが配置されている

CPUやGPUの熱は35℃の水で冷却され、40℃に温まった水はコンピュートラックの上にあるパイプを通って屋外のクーリングタワーに送られて30℃に冷却されてラックに戻る。一方、10kWの空冷分はラックの上に置かれたとFan Control Unitで冷却するいうハイブリッドの冷却システムになっている。

  • 冷却系の仕組み

    コールドヘッドで吸収した熱は、屋外のクーリングタワーで冷却される。蒸発冷却であるので、夏でも気温より低い温度まで水温を下げられる。サーバの空冷部分の熱はFCUで水冷されて、サーバラックに戻される。直接の水冷がメインであるが、水冷の難しい部分では空冷を使うハイブリッドな冷却系となっている

次の写真はサーバルームの建設の初期の段階で、コンクリートのフロアにスケルトンフレームが組み立てられている。

  • サーバ設置の初期段階

    スケルトンフレームを組み立てるサーバ設置の初期段階

前の写真からフレームの建設が進んだ状態である。キャップフレームを支える中二階が作られている。

  • スケルトンフレームの組み立てが進んだ状態

    スケルトンフレームの組み立てが進んだ状態

次のグラフはグランドチャレンジのジョブを実行した2018年の7月22日から26日の給排水の水温を示したものである。今年の日本の夏は猛暑であったが、サーバルームからの排水は40℃以下で、クーリングタワーで冷却された水は最高でも32℃以下であり、この冷却システムは、計算ノードを酷使するグランドチャレンジの最中でも、最高気温は40℃に達した日本の猛暑に耐えられることを実証した。

  • グランドチャレンジの給排水の温度推移グラフ

    グランドチャレンジを実行した日本の猛暑の季節の給排水の温度推移のグラフ。給水温は32℃以下に収まっている。右の小さいグラフはセンターのある柏の7月の最高と最低気温

そして、ABCIはHPLで19.88PFlopsをマークしてTop500で7位、HPCGでは508.85TFlopsで5位にランクされた。電力効率を競うGreen500では14.423GFlops/Wで4位にランクされている。

  • ABCIの性能ランキング

    ABCIはTop500では7位、HPCGでは5位。電力効率を競うGreen500では4位にランクされている

日本は、80年代の第2次AIブームに第5世代コンピューティングプロジェクトを立ち上げ、90年代にはReal World Computing Partnershipを立ち上げた。そして、2010年台の第3次AIブームを支えるインフラストラクチャとして、ABCIを立ち上げた。

  • 日本のAI開発の歴史

    日本では1980年代には第5世代コンピューティングプロジェクトを実施し、並列推論マシンを開発した

AIは産業界を変革しつつあり、政府は強力にその推進を後押ししている。しかし、産業界では、まだ、CEOがどうすれば良いかと悩んでいる状況である。

  • AI普及の課題

    第3次AIブームであるが、産業界ではどうすれば良いのかを悩んでいる状況

そのCEOの背中を押し、ユーザである産業界やシステムを開発、提供するIT業界が必要とする環境を提供するのがABCIであり、ABCI無しに日本での急速なAIの普及は期待できないと言っても過言ではない。

  • AI普及の解決策

    ABCIはAIのユーザである産業界や、AIを開発するIT企業が必要とする開発環境を提供し、AI普及のハードルを下げる

歴史的に、日本のAIに対するアプローチでは、基盤の整備とソフトウェア開発を行ってきた。ABCIはTop500などで高いランキングを獲得するためではなく、日本の社会の必要性を満たすために開発されたものである。

  • 日本のAI基盤となるABCI

    歴史的に日本は基盤の整備を行うというアプローチをとってきており、ABCIもそのような基盤を築くものである

産総研では、ABCIのフルシステムである1088ノード、4352GPUを24時間使うグランドチャレンジのプロポーザルを募集している。2018年の募集はすでに締め切られ、2019年1月の最後の週に実行される予定である。しかし、今後もグランドチャレンジのプロポーザル募集は続ける予定であるので、次回は提案を考えておいていただきたいとしている。

  • グランドチャレンジの募集は継続

    産総研は、ABCIのフルシステムを24時間使うAIジョブ(グランドチャレンジ)のプロポーザルを募集している。今回のグランドチャレンジの募集は終わってしまったが、今後も募集は続くという

なお。次のグラフはImageNet/ResNet-50の学習時間の記録の推移を示すものである。これまでの記録は中国のTencentがTesla P100 QGPUを2048個使って6.6分で学習したというものであるが、2018年11月にSonyとABCI/AISTのチームがABCI全体の半分の2176GPUを使ってImageNet/ResNet-50の学習を224秒(3.7分)で行うという世界最高速の学習を達成した。

  • 学習時間の最高速の変化

    ImageNet/ResNet-50の学習時間の記録の推移。ソニーと産総研のチームは半分の2176GPUを使い,224秒と世界最高速での学習に成功した