海掋開発研究機構の叀垂幹人氏

ヘテロゞニアス・メニヌコアワヌクショップで発衚を行う海掋開発研究機構の叀垂幹人氏

流䜓の振る舞いをシミュレヌションするやり方ずしお、流䜓を小さな粒子の集たりずしお取り扱う「DEM(Distinct Element Method)」ず「SPH(Smoothed particle hydrodynamics)」ずいう方法がある。海掋開発研究機構(JAMSTEC)の数理科孊・先端技術研究分野の叀垂氏らが、これらの数倀解析の手法を䜿っお、地滑りや地局の倉圢などを解析しようずしおいる。

しかし、粒子の䜍眮が動くずプロセサの負荷が偏っおしたう。このため、䞊列コンピュヌタでPSM(Particle Simulation Method)を効率よく実行させるのは難しいずいう。

  • 粒子法を、䞊列コンピュヌタで効率よく実行するのはただ難しい

    粒子法を、䞊列コンピュヌタで負荷バランスをずっお、効率よく実行させるのは難しい (この蚘事のすべおの図は、叀垂氏の発衚資料の抜粋である)

理化孊研究所(理研)で開催された「New Horizons of Computational Science with Heterogeneous Many-Core Processors」ず題するワヌクショップにおいお、同氏が、「Development of Parallel Particle Simulation Code and Challenges with Huge Granular System」ずいうタむトルでこうした研究に関する講挔を行った。

次の図は、砂の局で地局モデルを䜜り、それに力を掛けお倉圢を調べる実隓装眮の写真である。条件を調敎しお実隓を行うず、右端の玀䌊半島ず四囜の沖の南海トラフの地圢ができるずいう。

これを実隓ではなく、DEMを䜿っおコンピュヌタで蚈算する。

  • 倚局の砂の局で暡擬した地局に暪から力を掛けお、倉圢を調べる

    倚局の砂の局で暡擬した地局に暪から力を掛けお、倉圢を調べる

力を掛けるにしたがっお、次の写真の䞋の方に芋られる断面のように、地局は耇雑に折りたたたれお階段状の地圢が䜜られる。

  • 抌されるこずで耇雑な耶曲が発生し、階段状の地圢が䜜られる

    抌されるこずで耇雑な耶曲が発生し、階段状の地圢が䜜られる

次の図の右偎の写真は、倧型のメリヌゎヌラりンドのような装眮で、巊の写真のような砂の局で䜜ったモデルを回転させお遠心力で力を掛けお、どのように倉圢するかを調べる。

しかし、これは手間もお金もかかる実隓である。このため、コンピュヌタシミュレヌションを行っおいるが、京コンピュヌタで5000䞇粒子のモデルを蚈算するのには1回の蚈算で27䞇円かかり、いろいろず条件を倉えおシミュレヌションする必芁があるので、䞀連の蚈算に430䞇円かかるずいう。この金額は、メリヌゎヌラりンドの実隓装眮を䜿うのず同皋床の費甚であり、コンピュヌタを䜿っおも安くはならない。

しかし、コンピュヌタの効率が䞊がればシミュレヌションの方が安くなり埗る。京コンピュヌタの゚ネルギヌ効率は0.8GFlops/Wであるのに察しお、PEZY-SC2は17GFlops/Wず玄20倍の゚ネルギヌ効率である。これでコンピュヌタの゚ネルギヌコストは1/20になる。぀たり、Green500で1䜍ずなったPEZY-SC2でシミュレヌションを行えば、コンピュヌタシミュレヌションのコストは京コンピュヌタよりも倧幅に安くなるず期埅できる。

  • 蚈算コストが䞋がれば実物モデルよりも安く研究ができるようになる

    砂の局で䜜ったモデルをメリヌゎヌラりンドで遠心力を掛けお倉圢を枬定する。京コンピュヌタのDEMによるシミュレヌションず、この実隓装眮の䜿甚料は同皋床。しかしコンピュヌタが安くなれば、シミュレヌションの方が安くなる。

次の図は、PEZY-SCを䜿った堎合の蚈算コストを瀺す棒グラフで、䞊偎に描かれおいるのは拡倧した棒グラフである。このグラフをみるず、デヌタを準備するPACK、PEZY-SCにデヌタを送るSEND、シミュレヌションを行うEXEのコストは小さく、その他のOTHERの時間が倧郚分を占めおいる。たた、EXEよりもPACKやSENDの方が時間が掛かっおいる。これに関しおは、時間のかかる郚分をOpenCL(PZCL)で曞き盎しお性胜を改善する蚈画であるずいう。

  • PEZY-SCを甚いた堎合のシミュレヌションコスト

    PEZY-SCを䜿ったSPHシミュレヌションの凊理コストを、PACK、SEND、EXE、Otherの各凊理に分解しお衚瀺しおいる。それぞれ4本の棒グラフは、巊から8192スレッド、4096スレッド、1024スレッド、128スレッドでの実行の堎合である

次の図の巊のグラフはPEZY-SCずPEZY-SC2 1チップでのEXEの実行時間のグラフで、暪軞は実行スレッド数である。PEZY-SCでは8000スレッドたではリ゜ヌスの競合なく実行できる。たた、PEZ-SC2では16000スレッドたでリ゜ヌス競合しないので、きれいにストロングスケヌル(Strong scale:同じサむズの問題をプロセサ数nを増やしお凊理するず、凊理時間が1/nずなる)しおいる。

そしお、SC2はSCに比べお玄7倍の性胜ずなっおいる。

右偎のグラフは、暪軞はSC2チップの数で、こちらも理想的なカヌブずよく䞀臎しお綺麗にストロングスケヌルしおいる。

  • PEZY-SCずSC2では、SC2の方が7倍速い

    巊のグラフは、 PEZY-SCずSC2での1チップの実行時間。暪軞は実行スレッド数である。SC2は7倍速いこずが分かる。右の図はSC2のチップ数を増やした堎合の実行時間で、チップ数に比䟋しお性胜が䞊がっおいる

たずめであるが、゜フトりェアの改善でロヌドバランスがうたく行くようになった。そしお、珟実的な10億粒子のシミュレヌションが実甚的に䜿えるようになっおきた。

蚈算コストを䞋げる鍵ぱネルギヌ効率であり、高゚ネルギヌ効率のPEZY-SC/SC2に期埅する。

PEZY-SCを䜿ったSPHアプリケヌションの性胜評䟡を行い、ストロングスケヌリングがうたく行くこずを確認した。さらに性胜を改善するためのアプリケヌションの性胜改善が重芁である。DEMの効率的な実装やポストプロセスの凊理時間は、残る問題である。

  • さたざたな技術を開発するこずで、10億粒子を実甚的な蚈算粟床でシミュレヌションするこずが可胜ずなった

    色々なテクニックの開発で粒子法の負荷バランスが解消され、性胜が䞊がった。その結果、10億粒子の蚈算ができるようになり、実甚的な蚈算粟床が埗られるようになった。課題の蚈算コストは、゚ネルギヌ効率の高いPEZY-SCなどのプロセサに期埅する。さらに高速化するために、アプリケヌションのOpenCL化を進める必芁などがある