2024年2月2日、会場とオンラインでのハイブリッド形式で『スーパーコンピュータ「富岳」シンポジウム AI for Science ~変える、変わる 科学技術イノベーション~』が理化学研究所計算科学研究センターの主催で開催された。コングレスクエア日本橋の会場はほぼ満席となりオンラインも含め多くの聴講者が熱心に聞いていた。

今回は、アルゴンヌ国立研究所 副所長のRick L. Stevens氏が行った基調講演までの内容を抜粋して紹介。別記事ではパネルディスカッションの模様をお伝えする。

  • 会場の様子。コングレスクエア日本橋会場とオンラインのハイブリッド開催で行われた。

理研、「AI for Science」推進に向け世界のトップ機関との連携強化を図る

はじめに理化学研究所 理事長の五神真氏が挨拶を行った。五神氏は先日発生した令和6年能登半島地震のような自然災害や、地球温暖化による異常気象、武力あるいは最新技術を動員した国際紛争といった地球規模の課題がますます深刻になる今、地球規模の課題の影響を後の世代に転化せず、解決の道筋を見出すことが私たちの責務であると語る。

  • 理化学研究所 理事長 五神真氏

一方、生成AIは、約1年前にChatGPTが登場したことで、世界中に大きなインパクトを与えて注目が高まっており、あらゆる分野に影響が広がっていると説明。研究分野でも生成AIをはじめとするAI技術を研究開発に活用し、革新的な成果を生み出そうとする「AI for Science」という考え方が広がっており、米国では本日基調講演を行うアルゴンヌ国立研究所のRick L. Stevens氏らを中心に新しいプロジェクトが始まり、世界中の研究者が参加するコンソーシアムが2023年に設立されたと紹介した。

五神氏が理事長に就任した2022年4月、就任に伴い理化学研究所にある各分野の最先端プラットフォームを有機的に連携させるTRIP(Transformative Research Innovation Platform of RIKEN platforms)という構想を打ち出しており、2024年4月からは、TRIP-AGIS(Artificial General Intelligence for Science of Transformative Research Innovation Platform of RIKEN platforms)の取り組みを開始する。これは「富岳」にAI開発専用計算機を密に結合した最先端の研究環境を整備すると共に、このシステムを用い生命・医科学あるいは物質材料科学分野でAIの開発活用を推進するもので、理化学研究所のセンターの枠を超えて生命科学、物質材料科学、計算科学などの研究者の知見を結集した取り組みを加速するという。

理化学研究所は様々な科学技術分野においてAI for Scienceを推進し、世界の先頭に立ってAI for Scienceをリードする。このためにはトップ同士の国際連携が不可欠であり、世界的な研究コンソーシアムに積極的に参画し、Stevens氏の所属するアルゴンヌ国立研究所など米国等の研究所と密接な協力関係を確立すると強調した。

AI×ロボット工学、日本が世界をリードすることに期待を込める

ここからは、アルゴンヌ国立研究所の副所長であるRick L. Stevens氏が基調講演の内容をお届けしよう。

  • アルゴンヌ国立研究所 副所長 Rick L. Stevens氏

Stevens氏は、昨今のAIの進化は劇的だと話す。例として、これまで不可能と思われていたタンパク質の構造から立体構造を推定する研究に関して、2018年にDeepMindが開発したAlphaFoldにより推定が可能となり、2020年のAlphaFold2では推定されたタンパク質構造を用いて医薬品開発が行えるほどに進化したことが紹介された。これらはAIの進歩により、従来解決不可能とされていた問題が突如として解決可能となった事例である。

こうした現在のAI研究の基盤となっているのが、基盤モデルである。基盤モデルにおいては、多くのタスクをこなす「マルチタスク学習」と、様々な種類のデータでモデルを訓練する「マルチモーダル学習」の能力が高まってきており、応用が進んでいる。基盤モデルは膨大な量のデータを収集して学習し、様々な用途に向けたプラットフォームを提供する。これがGPTやAnthropicなどのテキストベースの汎用モデルのアイディアとなっている。

続いてStevens氏は、言語モデルは学習規模が大きい方がより良い回答を返すことがわかっていると話す。例えば、パラメーター数の違う二つのGPTに「ビールの作り方」を問いかけたところ、10億パラメーターのモデルではビールの完成が想像し難い不適切な回答を示したが、1750億パラメーターのモデルではそれなりに納得できる回答を示したという。

  • パラメーター数の異なる2つのGPT-3を用意し、同じ質問をしたところ10億パラメーターでは役立つ回答にならなかったのに対し、1750億パラメーターではそれらしい回答となっている。

大きなパラメーターのモデルの方がより強力であるということは、OpenAIが長年にわたり重視してきた重要なアイディアである。5年前、OpenAIは非常に大きなモデルを作って幅広くトレーニングすることで「emergence」、つまり予測を超えた創造が誘発されることを発見した。

AIモデルはトレーニングに使用されたデータの質で決まり、トレーニング以上の能力は発揮できないと思われていたが、実際にはモデルがトレーニングデータの様々な部分の情報を組み合わせて新しい能力やスキルを生み出していることがわかってきた。たとえば、日本語と英語のペアでトレーニングしなくても、適切なプロンプトを与えることで英語の和訳が可能になる。またStevens氏は物理学の問題を与えた例を挙げ、大学一年生程度の物理学の問題を提示したところ、質問の理解だけでなく、回答の道筋や方程式も生成して回答したと説明した。

このようにAIの成果が期待される中、現在多くのIT関連企業が言語モデルを作成している。企業がモデル作成を可能としているのは、豊富な資金力で多くのGPUを購入しているためだ。ある企業は2024年に35万枚のGPUボードを購入すると発表している。

一方で大学の場合、大型のスーパーコンピュータはほとんどなく、大学の研究チームからは大規模なAI成果の論文はほとんど生み出されていないという。こうした状況もあり、Stevens氏らは2019年からDOEの活動として、AIを科学にどのように活用できるか考察するワークショップを開催しており、その成果は今年バイデン大統領が署名したAIに関する大統領令で言及されている。ホワイトハウスはDOEにレポートの推奨事項の実施を指示している。

そのうちの一つである材料の設計にAIを利用する、またはAIをロボットと組み合わせて発見を自動化するというテーマに関しては、実験がAIによって自動化され、計画立案、検証すべき仮説の構築、結果の分析までAIで行われつつある。また、適切なプロンプトで話しかけることで論理的な問題を解決し、計画立案を行い、ロボットを制御することが可能となるそうだ。そのため、今後5~10年以内に多くの科学者が、自らが望むようなAIアシスタントを持つことができるという。

またStevens氏らの考察では、「AI for Science」の中核には科学のための基盤モデルが据えられている。そして理化学研究所も科学の基盤モデルに取り組んでおり、コミュニティ全体が同じ方向に進んでいるのである。

  • 「AI for Science」の中心には科学のための基盤モデルが中核に据えられると判断している。

このようにAIが強力化するにつれ、生物学や材料科学、化学などではアイディアのテストや検証がプロセスのボトルネックとなるとStevens氏は説明。この問題を解決するには、AIとロボット工学の組み合わせが必要であり、日本はロボット工学の分野で秀でているため、この分野で世界をリードすべきと期待を述べた。

  • AIによってアイディアが生まれることは、必然的に仮説のテストや検証がボトルネックとなる。この解決には自動化されたテストプロセスが必要となり、つまりロボットによる実験自動化が必須である。Stevens氏はロボット技術に秀でた日本がこの分野で世界をリードして欲しいと期待する。

AIを研究で使用するための3つの手法

次にStevens氏は、研究にAIを使用するための手法について説明した。

まず「知識の抽出」だ。これはAIモデルに対し、課題に関しての知識を問うものである。続いて「知識の要約」では、多くの科学論文をAIモデルに入力し、過去の論文に含まれる重要なポイントや科学的な仮説があるかを問う。人間には1万の論文を精読して理解するのは難しいが、AIであれば可能だ。最後に「知識の統合」でAIモデルに対して要約で得られた仮説を入力することで、仮説を検証するための実験計画を立案させる。

知識の抽出では10秒程度で回答が得られ、知識の要約も1つの論文につき1分程度で完了する。研究者が一つの論文を精読するには数時間以上かかるため、これにより研究のサイクルは大きく短縮されるだろう。最後にAIモデルにプロンプトを使用し、実験の詳細な手順をロボットで行えるような指示を与える。

Stevens氏のチームと理化学研究所のチームは、AIによって完全駆動されるこうした実験方法が、あと1~2年で示されると信じている。

Stevens氏のチームはDOEにおいてAIを活用した科学、エネルギー、セキュリティに関するビジョンを実現するための10年間の研究計画FASST(Frontiers of AI for Science, Security and Technology)を策定している。これにはAIの信頼性、調整、責任に関する横断的な活動、10のセンターでのプロジェクト、AIプラットフォームなどの横断的な技術投資、新しいコンピュータ施設が含まれている。理化学研究所同様、高度なAI研究をサポートするためには、より多くの計算機資源への投資が必要だと語る。

一方でAIシステムのリスクについても熟慮が必要だという。米国ではAIのリスクをどのように管理すべきかについて、政府主導の規制、企業による自主規制、または国際的な規制を含む形で活発な議論が行われている。

ディープフェイクや虚偽情報のような一般消費者レベルのリスクに対しては、多くの団体が対策に取り組んでいる。さらに国家や悪意のある集団が強力なAIシステムを構築し、生物兵器やサイバー攻撃などを設計するリスクについては、世界の国々が協力して保護策や検出方法を構築する必要があると話す。

最後にStevens氏は、科学のための生成AIを構築するプロジェクト「TPC(Trillion Parameter Consortium)」について説明した。これは1兆パラメーターと過去最大規模の科学研究のための生成AIモデルを国際協力で作るプロジェクトだ。すでに理化学研究所を含む70以上のパートナーがあり、研究だけでなく学生の育成も目的としている。この技術が構築されて広く利用されることによって、過去数十年を要していた科学的進歩が、数年で実現できるとStevens氏は見ている。

気候変動や地震などの災害予測、パンデミックなど、地球規模の喫緊の課題の解決に向けて、強力なAIシステムの構築は急務である。Stevens氏は、こうした課題解決に向け早期の学術研究用AIの構築を訴えて講演を終えた。

スーパーコンピュータ「富岳」シンポジウム
「AI for Science ~変える、変わる 科学技術イノベーション~」レポート
<<(後編)パネルディスカッションの模様はこちらから>>

[PR]提供:理化学研究所 計算科学研究センター