理化学研究所 計算科学研究センターが保有する世界トップクラスのスパコン「富岳」

日本を代表するスーパーコンピュータ(以下、スパコン)と言えば、理化学研究所 計算科学研究センター(以下、R-CCS)に設置されている「富岳」だろう。前世代のスパコン「京」の100倍のアプリケーション実行性能を持つ後継機として、2021年3月から共用を開始。2020年6月から2021年11月まで4期連続の世界スパコン ランキング4冠(TOP500、HPCG、HPL-AI、Graph500)を達成しており、HPCGとGraph500に関しては2023年11月に8期連続の世界第一位を維持している。現在でも世界トップクラスの性能を持つ。

  • 画像①世界スパコンランキングにおける「富岳」

    2021年に共用を開始したR-CCSの「富岳」は、現在でも世界スパコン性能で二冠を達成。一時期は4冠も達成しており、現在でも世界トップクラスの性能を持つスパコンだ

理化学研究所は、従来の「富岳」など、スパコンを用いたシミュレーションによる科学に加えて、AIによる科学(AI for Science)の手法を研究者に広めることを狙っており、2024年2月2日に一般の方々も対象とした「富岳」のシンポジウム『AI for Science ~変える、変わる 科学技術イノベーション~』を開催する予定だ。

  • 画像②R-CCSの新たなチャレンジ

    R-CCSが現在チャレンジしている項目の中にはAI for Scienceも含まれている

「AI for Science」とは何か?本稿では、他国の動向や現在までの取り組みに関してR-CCSセンター長の松岡聡氏にお話を伺った。

  • 理化学研究所 計算科学研究センター センター長 松岡聡氏

    理化学研究所 計算科学研究センター センター長 松岡聡氏

研究プロセスを加速させる鍵「AI for Science」とは

理化学研究所が掲げるAI for Scienceとはなんだろうか?一言で言うと、生成AIを含む昨今の高度なAIを、様々な形で科学の難しい問題を解決するために活用する事だ。「科学的な成果を得るための道具としてAIを使う(松岡氏)」という。

例えば、ビジネスシーンだけでなく、科学における研究開発においてもPDCAサイクルは回っている。科学において高度な課題があった場合、その解決のためにどのようなシミュレーションや実験をすればよいのか立案計画し、計画に沿ってそれらを行って、科学データを生成・収集する。さらにそのデータを分析して評価を行い、評価を元に改善をし、次の計画を立てる。このサイクルの自動化を含めて、様々な局面でAIを活用することで、研究開発のスピードを上げ、より短期間で高い成果を上げる。これがAI for Scienceの一つの狙いだ。

従来スパコンで行われているシミュレーションの主流は、現象をモデル化して方程式で関係性を示し、物理法則をコンピュータ内で再現するものだった。この方法は確立したモデルならば正確な答えが出るものの、モデルがまだ確立していない場合やスパコンでも音を上げるような膨大な演算が必要なシミュレーションは行えない。

一方、生成AIは人間の脳機能を模倣した作りだ。例えば、一般の小学生は高度な数学や物理を駆使して方程式を解くことは困難だが、生まれてから様々な形で水の動きを見て視覚的に学習している。その学習をもとに、コップの中で揺らした液体は、水なのかそれとも粘性の高い油なのか、脳の中で動きを想像的に再現して、より近いと思った方を推論して回答するだろう。

生成AIも同じ原理で、たとえば「波が今このように来ていて、10秒後の波はどうなっているか?」という問いに対して、過去の学習から短時間で推論する形でシミュレーションして、予測するのである。

松岡氏はそのような生成AIを科学に適用する事例として、「富岳」を使ったCOVID-19の飛沫感染のシミュレーション研究(※1)において、以前行ったAIによる再現実験を説明した。すでに過去に行った研究であったが、ゼロベースで飛沫感染およびその対策研究の目標をChatGPT-4に入力し、それを詳細化するよう対話を繰り返したところ、研究全体のアイディアやプロセスをほぼ同等に再現して提示したということだ。(※2)さらに、方式だけでなく、実際のシミュレーションのプログラムもChatGPT-4に生成させることができたそうだ。

※1:この論文は2021年に(スパコン界のアカデミー賞最優秀作品賞あるいは最高峰の賞に例えられる)ゴードン・ベル賞COVID-19研究特別賞を受賞している。
※2:対話内容は公開中[https://sharegpt.com/c/BW8IG7e]

再現実験をした当時、ChatGPT-4は2021年9月までの学習しか行っていないため、2021年10月にはじめて公表された論文の中身を学習していないはずだが、松岡氏がChatGPTとのやり取りを、研究をリードした坪倉プロジェクトリーダーに見せたところ「我々のアプローチをそのまま学習しているのではないかと思うような回答」とコメントしていたという。このように生成AIは、新たな科学的課題を解決する手法を創造する可能性を秘めているともいえる。

  • 画像③「富岳」を使ったCOVID-19の飛沫感染のシミュレーション研究

    生成AIは過去の学習から推論する。ChatGPT-4に新型コロナウイルスの飛沫感染シミュレーションで求められる項目を入力したところ、研究のアイディアやプロセスを的確に出力した

「AI for Science」は大規模な演算環境がある欧米が有利、日本は出遅れ気味に!?

一方、松岡氏は日本と欧米のスパコン事情と企業の取り組みに大きな差があると指摘する。

米国では研究所に大規模なスパコンが複数あるだけでなく、OpenAIやGoogleのように民間企業も独自の生成AI開発に取り組んでおり、各社は世界トップクラスのスパコンをそろえている。生成AIの事前学習には膨大な計算資源が必要だが、資金力のある米国民間企業は計算資源も人材も豊富であり、その結果がOpenAIのChatGPTやGoogleのBardのような独自の生成AI開発に繋がっていると松岡氏は説明。

日本ではコンピュータサイエンスの研究者などが生成AIの研究を行っているが、計算資源が少ないためゼロから大規模言語モデルの作成は難しく、追加学習に留まっている事や、AI for Scienceのような他の研究への波及を追及する余裕がないことが課題だという。また「『富岳』でも大規模言語モデルの学習は不可能ではないが、AIの学習だけを行うと他の研究がストップしてしまう」と松岡氏。

  • 画像④AI for Scienceを巡る動きと富岳

    AI for Scienceは科学の在り方を根本的に変える可能性がある一方、日本は出遅れ気味だ

高いメモリ帯域とネットワーク帯域を持つ「富岳」の強み

松岡氏によると、ChatGPT-4のような一般的な生成AIと、科学者が研究で使用する生成AIには大きな違いがあるという。

一般的な生成AIは、すでにインターネットなどに存在する過去の言語や画像データをバッチ処理で一斉に処理して基本学習を行うことが多い。この場合は低精度密行列計算に強いGPUが重要な役割を果たす。また、ChatGPTなどを使ったことがある人ならば理解できると松岡氏は前置きしたうえで、一般的な生成AIは、信ぴょう性が多少低くても、人間の回答と同様に多くの場合許容されると説明した。プロンプトの内容によっては、ハルシネーションと呼ばれる“事実に基づかない回答”が生成された経験をした人もいることだろう。

しかし、AI for Scienceにおいては低い信ぴょう性は好ましくない。そこで物理シミュレーションや実験などによるファインチューニングを注意深く行い、かつ、新たな科学データの獲得に対し、AIを再学習し続けて利用する必要がある。学習するデータは事前に用意されたものだけでなく、実験やシミュレーションから得られた膨大なデータをリアルタイムに取り込んで再学習する事で精度を上げる。膨大なデータで生成AIを再学習するために求められるのは、高いメモリ性能とネットワーク性能であり、それらを重視した大規模なスーパーコンピュータが有利だ。

  • 画像⑤従来のAIの研究とAI for Scienceの研究の違い

    AI for Scienceは実験やシミュレーション結果を使いながら再学習する仕組みが不可欠。リアルタイムで膨大なデータを処理するためにはメモリ帯域とネットワーク性能がカギ

スパコンのなかでも、「富岳」は世界トップのネットワーク性能、メモリ帯域を持っており、他のスパコンにはない優位性がある。そこはAI for Scienceに有利な点だろう。

ただ「富岳」をAIだけのために利用することはできないため、「今後のソフトウェア改良によって富岳自身の深層学習・推論性能を強化する研究を行い、その成果を次世代のスパコン『富岳ネクスト』の設計に反映させる計画だ(松岡氏)」と説明する。

「AI for Science」の取り組み事例

現在までにAI for Scienceが使われている例をいくつか紹介したい。日本では先進国の中でも地震が多く地震災害に対する対応は社会的課題だ。

地震解析シミュレーションを大規模かつ高精細に行うと、現在の「富岳」を持ってしても計算資源が必要で、事前の試算では「富岳」の20倍の能力が必要だというのが従来の問題であった。これが生成AIを活用する事で、「富岳」でも大規模な地震解析シミュレーションが可能になった。

また、生成AIは素材開発にも使われている。日本発の技術として「ペロブスカイト太陽電池」というものがカーボンニュートラルにおいて昨今注目されている。これまでペロブスカイト太陽電池に使われている化合物には、鉛が含まれているため環境に悪影響を及ぼす可能性があることに加え、太陽光から電気に変える変換効率に課題があった。そのため、より実用的なペロブスカイト太陽電池を作り出すには、鉛フリーかつ変換効率の良い化合物を探し出す必要がある。

ペロブスカイト化合物の候補物質は何百万種類もあり、実験回数を減らすためには事前に有力な候補化合物を見つけ出さなければならない。そこでAIを用いた候補抽出と材料シミュレーションを組み合わせることで、AIの精度を上げて候補を絞り込み、そこで選ばれた化合物を実際に合成して測定。この測定結果を材料シミュレーションにフィードバックするサイバー・フィジカルループを使用することでさらに絞り込みを行ったところ、変換効率が24.4%と高い物質を見つけ出すことができた。

これらの例からある通り、AI for Scienceによって科学の進化が大いに期待できるはずだ。

社会変革をもたらす生成AIと「AI for Science」にもっと関心を!

AI for Scienceのポイントは、生成AIを研究の道具として使いこなすところにある。松岡氏によると「AIによって進化するのは言語や画像だけではない。AI for Scienceは社会変革をもたらすポテンシャルがある」とのことだ。

またAI for Scienceによって研究者の働き方も大きく変わる。画期的な新素材の発見のために膨大な実験と計測が短縮され、演算量の多さから時間のかかる物理シミュレーションを減らし、研究を素早く進めることができる。つまり研究者の生産性向上に寄与するだろう。同じことは一般社会で働くビジネスマンにも言え、社会や会社が抱える課題解決に生成AIは大きく貢献する。

最後に、松岡氏はAI for Scienceにかける想いをこう語った。「今後AI for Scienceの成果による社会変革が起こり、AIによって科学を進化させ、科学の進化でまたAIも進化し世の中を良くします。そのような取り組みを理化学研究所では4月から大々的に行う予定です」

* * *

冒頭でも紹介したが、2024年2月2日に開催される「富岳」のシンポジウム『AI for Science ~変える、変わる 科学技術イノベーション~』では、AI for Scienceがもたらす価値、そこでの「富岳」が果たす役割の理解を、より深めることができるだろう。ぜひ体験してみてはいかがだろうか。

* * *

※記事内の写真及び画像資料の提供:理化学研究所

スーパーコンピュータ「富岳」シンポジウム
「AI for Science ~変える、変わる 科学技術イノベーション~」
<<特設サイトはこちら>>

[PR]提供:理化学研究所 計算科学研究センター