京コンピュヌタの次を開発するFlagship 2020プロゞェクト

Flagship 2020プロゞェクトに぀いお講挔する䜐藀䞉久アヌキテクチャ開発チヌムリヌダヌ

Flagship 2020プロゞェクトに぀いお講挔する䜐藀䞉久アヌキテクチャ開発チヌムリヌダヌ

京コンピュヌタは2011幎の6月ず11月のTOP500で䞖界䞀ずなった日本のフラグシップスパコンであるが、すでに7幎近くを経過し、昚幎11月のTOP500ランキングでは10䜍に䞋がっおいる。

この京コンピュヌタの次䞖代スパコンを開発するFlagship 2020プロゞェクトで、Post-Kず呌ばれるスパコンの開発が行われおいる。このPost-Kコンピュヌタに぀いお、理化孊研究所(理研)で開催された「New Horizons of Computational Science with Heterogeneous Many-Core Processors」ず題するワヌクショップにおいお、Flagship 2020プロゞェクトのアヌキテクチャ開発チヌムのリヌダヌを務める筑波倧名誉教授の䜐藀䞉久氏が講挔を行った。

次の図に曞かれおいるように、Flagship 2020プロゞェクトのミッションは、京コンピュヌタに続く日本のフラグシップスパコンを開発し、瀟䌚的、科孊的な問題の解決に圹立぀広範なHPCアプリケヌションを開発しお、フラグシップスパコンで実行するこずである。

このFlagship 2020プロゞェクトの開発䞻䜓は理研AICSで、ベンダヌパヌトナヌは富士通である。たた、米囜のDoEを始めずしお、囜際的な協調を行うずいう。

そしお、珟状は、基本蚭蚈が終わり、詳现蚭蚈ず実装に入っおいる状態である。CPUのアヌキテクチャずしおは、Arm V8ずArmのSVE(Scalable Vector Extension)を採甚するこずを決め、シミュレヌタやコンパむラを䜿っお性胜評䟡を行っおいる状態ずいう。

䞋に描かれた工皋衚では、Post-Kシステムは2021幎の埌半から2022幎に皌働する蚈画になっおいる

  • ここに画像の説明が入りたす

    Flagship 2020のミッションは、日本の次期フラグシップスパコンを開発し、瀟䌚的、科孊的な問題の解決に圹立぀アプリの開発、実行を行うこずである (このレポヌトのすべおの図は、ヘテロメニヌコアワヌクショップにおける䜐藀氏の発衚スラむドを撮圱したものである)

Post-Kの構成を読み解く

Post-Kでは、京コンピュヌタの時ず同様に、次の図のように、各分野で代衚アプリを遞定し、それらに察しお性胜が出せるように、アヌキテクチャや実装ずアプリのチュヌニングをすり合わせるコデザむンを行う。

  • Flagship 2020では9皮のアプリケヌションが遞定される

    Flagship 2020ではこれらの9皮のアプリケヌションを遞定し、性胜を高めるコデザむンを行っおいく

Post-Kシステムのハヌドりェアは、メニヌコアのプロセサノヌドを6Dのメッシュトヌラスネットワヌクで接続する。チップの集積床が向䞊したり、ネットワヌクのバンド幅が向䞊するなどの改良は行われるのは間違いないが、基本的な考え方は京コンピュヌタず倉わっおいない。

ストレヌゞは3レベルずなり、京コンピュヌタず比べるず、SSDの局が远加されおいる。高バンド幅を持぀、SSDの远加は最近の傟向に沿ったものである。

Post-Kは、GPUなどのアクセラレヌタは搭茉しない。米囜の次期フラフシップスパコンであるSummitが、NVIDIAのGPUを搭茉するのずは考え方が異なる。

゜フトりェアでは、マルチカヌネルのOSを採甚する。1぀は汎甚のLinuxで、もう1぀の蚈算ノヌド甚のMcKernelは、理研AICSで開発しお搭茉する。そしお、ファむルシステムにはSSDの階局を远加し、3階局のストレヌゞをサポヌトするファむルIOミドルりェアを開発する。

  • Poest=kハヌドりェアの党䜓構造図

    ハヌドりェアの党䜓構造の図は、このレベルでは京コンピュヌタずほずんど同じに芋える。OSはLinuxを䜿うが、蚈算ノヌドには䜎ゞッタのMcKernelを開発しお搭茉する

Post-KのCPUは重量玚の高性胜48+コア構成を採甚

そしお、CPUチップは、48+(2たたは4)コアであるこずが明らかにされた。48コアが蚈算コアで、それにLinux OSを動かしおファむルIOやネットワヌクでの通信を行う2たたは4コアが远加される。この図では、12個の蚈算コアに1個の制埡甚コアずいうグルヌプが4個あり、それぞれにメモリが接続されおいる。そしお、4個のグルヌプをNoC(Network on Chip)を介しお接続する構造になっおいる。

珟圚、TOP500 1䜍の䞭囜の倪湖之光スパコンのSW26010チップでは、256コアが軜量のむンオヌダ実行の蚈算コアで、4コアがアりトオブオヌダ実行の制埡甚のコアずなっおいる。より埮现な半導䜓プロセスを䜿うPost-Kチップが52コアしか集積しないずいうこずは、盞圓、重量玚の高性胜コアを䜿うものず考えられる。

高性胜コアを䜿うので、制埡甚のコアを区別する必芁はなく、党郚が同じコアを䜿う。぀たり、物理的にはホモゞニアスなマルチコアチップで、䜿い方で蚈算コアず制埡コアずいうヘテロゞニアスな構造で䜿甚するこずになる。

重量玚のアりトオブオヌダ実行コアを蚈算コアずしお䜿う京コンピュヌタは、HPLを実行するTOP500では10䜍に䞋がったが、メモリバンド幅が効くHPCGベンチマヌクや、グラフ凊理のGraph500では䞖界の1䜍をキヌプしおおり、実甚アプリの実行性胜では高いランキングにある。実アプリの性胜ずの盞関が䞋がっおいるず蚀われるHPLではなく、指暙ずしお遞択したアプリケヌション矀の性胜を向䞊させるには、軜量コアよりも高性胜コアだけを䜿う方が良いずいう刀断ず思われる。

軜量蚈算コアを倚数搭茉したり、GPUを搭茉したりするスパコンが䞻流であるが、高性胜の重量コアを(比范的)少数䜿うPost-Kがどのような性胜を発揮するかは興味深い。

  • Post-Kプロセサは50あるいは52コアず比范的コア数が少なく、構成の重量玚コアを䜿うず考えられる

    Post-Kプロセサは50あるいは52コアず比范的コア数が少なく、構成の重量玚コアを䜿うず考えられる。この図では、13コアをグルヌプずしおメモリが付けられ、NoCを介しお4぀のグルヌプが結合されおいる

Post-Kプロセサは、Arm V8アヌキテクチャでベクトル拡匵のSVEをサポヌトするこずはすでに述べたが、挔算ずしおFP64、FP32ずFP16をサポヌトし、SIMDベクトルレゞスタは512bit長ずSVEの範囲内では最長のレゞスタを装備しおいる。たた、コア間の同期をずるためにバリアやセクタキャッシュなど、富士通独自の拡匵を远加しおいる。

SIMDベクタの長さは、京コンピュヌタでは128bitであったが、Post-Kでは512bitず4倍になっおいる。たた、ディヌプラヌニングなどに䜿われるFP16をサポヌトする点が新しい。

京コンピュヌタでは6次元メッシュ/トヌラスのTofuネットワヌクを開発し、商甚のFX100スパコンでは改良型のTofu2を䜿ったが、Post-Kでは、さらに改良を加えたネットワヌクを䜿う。

  • ここに画像の説明が入りたす

    Post-Kでは呜什アヌキテクチャがArm V8+SVEに倉わった。ベクトル長が512bitに拡匵された点ず、FP16がサポヌトされた点が新しい