東京工業大学(東工大)は5月18日、同大学術国際情報センター(GSIC)が、次世代スーパーコンピュータ(スパコン)「TSUBAME4.0」を2024年春に稼働させる計画であり、その構築を開始したことを発表した。
同大のTSUBAMEスパコンは2006年4月に第1世代が稼働を開始。「みんなのスパコン」として国内外の産学官のさまざまな研究開発を支援してきた実績を持つ。現在は第3世代の「TSUBAME3.0」が運用されており、TSUBAME4.0は、TSUBAME3.0で培ったさまざまなノウハウを昇華させる形でハードウェアおよびソフトウェアの設計が行われたという。
具体的には、TSUBAME4.0では、x86-64アーキテクチャのCPUとNVIDIA Hopperアーキテクチャに基づくNVIDIA H100 TensorコアGPUをさらに同スパコン向けにチューニングした製品を960台採用。TSUBAME3.0にはPascal世代のGPU(Tesla P100)が2160台搭載されていたのと比べると半分以下になるが、GPUの性能向上ならびにGPUの論理分割機構の活用により、TSUBAME3.0を超す性能およびユーザビリティを実現できるとしている。その理論演算性能は科学技術計算で利用される64bitの倍精度演算で66.8PFlops、人工知能(AI)などで利用される16bitの半精度演算で952PFlopsとなるという(TSUBAME3.0の倍精度演算性能の理論値は12.15PFlops)。
また、その開発にあたっては政府調達「TSUBAME4.0スーパーコンピュータ」が実施され、日本ヒューレット・パッカード(HPE)が落札。設置場所としては、これまでの同大大岡山キャンパスではなく、すずかけ台キャンパスに新たなスパコン用建屋が整備されたという。
システムの計算ノード部として「HPE Cray XD6500シリーズ」のサーバが240台、各計算ノードには第4世代AMD EPYCプロセッサが2基、NVIDIA H100 TensorコアGPUが4基、768GiBの主記憶、NVIDIA Quantum-2 InfiniBandネットワークインタフェースが4ポート搭載されるという。また、ストレージシステムは「Cray ClusterStor E1000」で構成され、LustreファイルシステムによってHDDベースの共有ストレージ44.2PBとSSDベースの高速ストレージ327TBに接続されるとともに、各計算ノードにも容量1.92TBのNVMe対応高速SSDストレージが搭載されるという。さらに、これら計算ノードおよびストレージシステムはInfiniBandで接続されるほか、SINET6を経由し100Gbpsの速度で東工大すずかけ台キャンパスから直接インターネットに接続されるという。
なお、TSUBAME4.0では、これまでのみんなのスパコンの理念を発展させ、従来型のコマンドライン・バッチスクリプトベースの利用だけではなく、Webアプリケーション経由での利用など、多様化するスパコンの使い方に対応することで、初学者や幅広い分野の研究者にも使いやすいソフトウェア環境を備えた「もっとみんなのスパコン」として日常的に活用されることを目指すという。