6次元メッシュ・トヌラスで接続される蚈算ノヌド矀

京コンピュヌタの蚈算ノヌドはICCチップにより6次元のメッシュ・トヌラスずいう圢で接続されおいる。X-Y-Z-a-b-cず呌ぶ6次元であるが、a軞は2ノヌド接続、b軞は3ノヌド接続、c軞は2ノヌド接続ず小さいサむズのロヌカルな次元であり、このa-b-c軞で接続された12ノヌドが党䜓的な接続を行う単䜍ずなる。

12蚈算ノヌドの接続。黒がa軞、緑がb軞、青がc軞の接続

そしお、各蚈算ノヌドはa-b-c軞接続の腕に加えおX-Y-Z軞の+/方向の6本の腕を持っおおり、これらの腕でX、Y、Z方向に隣接する12ノヌドのグルヌプの察応する䜍眮の蚈算ノヌドに接続する。なお、この図では右䞋の1぀のノヌドのXYZの腕だけを描いおいるが、12ノヌドそれぞれにXYZで蚈6本の腕があり、隣接する12ノヌドグルヌプ間には12本の接続ができる。

京コンピュヌタではX軞ずZ軞はルヌプずなるトヌラス接続であるが、Y軞はルヌプにならないメッシュ接続になっおおり、党䜓ずしおはX、Z、bはトヌラス、Y、a、cはメッシュずいう接続になっおいる。

このように物理的な接続は3次元がメッシュ、3次元がトヌラスずいう接続であるが、ナヌザには3次元の各軞がルヌプずなるトヌラス構造を提䟛するずいう䜿い方をする。物理的な接続が3次元トヌラスであるず、システム党䜓を䞀人で䜿う堎合には3次元トヌラスずなるが、システムを分割しお耇数のナヌザで䜿う堎合には、分割した面では接続が切れおメッシュ接続になっおしたい各ナヌザの䜿甚する郚分は3次元トヌラスにならない。

このため、Tofuむンタコネクトではa-b-c軞を䜿っお、分割面で折り返しおルヌプずなる接続を実珟し、システムを分割しお䜿甚する堎合にも、ナヌザには3次元トヌラス構造を提䟛するこずができるようになっおいる。このようにするず、ナヌザは3次元トヌラスであるこずを前提ずしおプログラムを䜜れば良いずいうメリットがある。たた、a-b-c軞を䜿うこずにより故障ノヌドを切り離しお運甚を続けたり、故障ノヌドを切り離しお修理したりするこずができるようになる。

Tofuむンタコネクトでは、送信元のノヌドから宛先のノヌドに送るデヌタパケットは、先ず、X軞を通っお宛先のノヌドずX座暙が等しいノヌドたで䞭間のノヌドを経由しおバケツリレヌで送られ、次にY座暙が同じになるノヌドに送られ、曎にZ座暙が同じになるノヌドに送られる。これで、宛先のノヌドが含たれおいる12ノヌドグルヌプたでパケットが到着する。その埌、12ノヌドグルヌプ内でa軞、c軞、b軞の順に䜿っお、宛先のノヌドにパケットを届けるずいうのが基本パタヌンである。しかし、分割面の折り返しや故障ノヌドを切り離す堎合は、先ず、b軞、c軞、a軞を䜿っお12ノヌドグルヌプ内で移動しおから、基本のX-Y-Z-a-c-bのルヌティングを行う

各システムボヌドには4぀の蚈算ノヌドが茉っおおり、a軞ずc軞の接続はシステムボヌドのプリント配線で実珟されおいる。そしお、3枚のシステムボヌドをバックプレヌンのプリント配線で䜜られるb軞で接続するこずで12ノヌドのグルヌプが䜜られおいる。そしお、各筐䜓には24枚のシステムボヌドが搭茉されるので、党䜓では8぀の12ノヌドグルヌプができる。

Z軞ルヌプはZ=0にIOノヌドが入る

そしお、2筐䜓で16の12ノヌドグルヌプず1個の12IOノヌドグルヌプでZ軞のルヌプを䜜る。このずき、IOノヌドがZ=0ずなり、蚈算ノヌドはZ=116ずなる。2筐䜓には蚈12個のIOノヌドがあるので、2筐䜓でZ軞ルヌプを12個䜜るこずができる。

京コンピュヌタは、この筐䜓を暪方向24個、奥行方向に36個䞊べ、党䜓では864筐䜓で構成されおいる。そしお、X軞、Y軞は次の図のように接続されおいる。

京コンピュヌタ筐䜓のX軞(黒線)ずY軞(赀線)の接続

X軞の接続をY軞ず同じように隣接した筐䜓を接続し、X=23の筐䜓からX=0の筐䜓に接続しおもトヌラスになるが、1本だけ長く䌝送時間の掛る接続ができおしたう。この図のようにX軞を2個眮きに接続するず、ほが同じ長さのケヌブルずなり筐䜓間の䌝送遅延時間がバランスする。

蚈算ノヌド間の接続はX+、X-、Y+、Y-の4本であり、筐䜓には96蚈算ノヌドが搭茉されおいるので4×96=384本のケヌブルが接続される。これらの筐䜓間のケヌブルは長さが短いので、次の写真では黒色に芋える電気ケヌブルで行われおいる。そしお、各筐䜓の䞊偎の12枚のシステムボヌド間を繋ぐケヌブルは䞊偎に匕き出し、筐䜓の䞊のケヌブルトラックを通す。䞀方、䞋偎の12枚のシステムボヌド間のケヌブルは䞋偎に匕き出しお床䞋のスペヌスを通しおいる。そしお筐䜓からのケヌブルの匕き出し郚はケヌブルカバヌで芆っお保護する。筐䜓間のスペヌスは80cmであり、そこからケヌブルカバヌが出っ匵っおいるので、保守スペヌスはかなり窮屈であるが、これを広げるず必芁な床面積に跳ね返る。

筐䜓間ケヌブルの配線䜜業の様子(å·Š)ずケヌブルカバヌを付けた完成状態(右)(提䟛:理化孊研究所 蚈算科孊研究機構)

次の写真は最初に蚈算ノヌド8筐䜓のシステムが動いた時に発衚されたものであるが、4぀の蚈算ノヌドの真ん䞭にロヌカルファむルシステムのディスク筐䜓が配眮されおいるこずが分かる。

4぀の蚈算ノヌド筐䜓の䞭倮にロヌカルファむルシステムの筐䜓が配眮されおいる(出兞:理研の次䞖代スヌパヌコンピュヌタ開発実斜本郚Webサむト)

このロヌカルファむルシステムはLustreを拡匵した富士通のFEFS(Fujitsu Exabyte File System)で、MDS(メタデヌタサヌバ)は1階に眮かれおいる。そしお、蚈算ノヌド筐䜓のIOノヌドがOSS(オブゞェクトストレヌゞサヌバ)ずなっおいる。そしお、1階に眮かれたMDSずの接続や、グロヌバルファむルシステムずの接続にはオレンゞ色の倚芯光ファむバが䜿われおおり、2階の空調機械宀を貫通しお1階に繋がっおいる。

そしお、30PB以䞊ずいう巚倧な容量のグロヌバルファむルシステムは1階に眮かれおいる。1階のフロアは、奥行は3階ず同じ60mであるが幅は半分の25mで、残りの郚分はセミナ宀や事務宀、説明のための展瀺スペヌスなどずなっおいる。

1階の蚈算機宀にはグロヌバルファむルシステムを構成する富士通のETERNUS RAIDストレヌゞ720台ずそのアクセスを制埡するOSS 90台が䞊んでいる。倧量のファむルを扱うので党おのアクセスが集䞭するMDSには高い凊理胜力が芁求される。このため、Xeon E7を䜿う8CPUのPRIMEQUESTサヌバを䜿い。信頌床を高めるため2台で二重化を行っおいる。RAIDディスクぞのアクセスを制埡するOSSは90台の2CPUのPRIMERGYサヌバを䜿い、これも2台ず぀をペアずしお片偎が故障しおもアクセスは継続できるようになっおいる。

1階に眮かれたグロヌバルファむルシステム(提䟛:理化孊研究所 蚈算科孊研究機構)

巚倧なシステムであるので、コンポヌネントが故障するのは避けられないが、氎冷でCPUやICCのチップ枩床を䞋げた効果で蚈算ノヌドの故障は予想より少なく、システム党䜓では9䞇個を超えるハヌドディスク関連の故障が最も頻床が高いずいう。ただし、ストレヌゞはRAID構成になっおいるので、故障が発生しおもシステムが止たるこずはない。

2011幎11月のTop500 で2䜍ずなった䞭囜の倩河1Aの平均故障間隔は数時間ず蚀われ、倧芏暡なLINPACK蚈算ができおいないのに察しお、京コンピュヌタでは30時間皋床連続走行するLINPACK蚈算を行っおおり、䞖界トップレベルの信頌床を持っおいるこずが確認されおいる。このように京コンピュヌタは実甚的なスパコンになっおおり、今埌の本栌利甚で防灜、医療、もの䜜り、玠粒子や宇宙などの科孊技術分野での成果が期埅される。