東京科学大学(科学大)と九州大学(九大)の両者は10月23日、生成AI「条件付き変分オートエンコーダー」を用いた、効率的な触媒設計を実現する新たな手法を開発したと共同で発表した。

  • CatDRXが入力した反応条件に最適な触媒構造を提案する枠組みのイメージ

    今回開発されたCatDRXが、入力した反応条件に最適な触媒構造を提案する枠組みのイメージ(出所:共同プレスリリースPDF)

同成果は、科学大 情報理工学院 情報工学系の大上雅史准教授、同・ケンカーンナー・アーパーコーン大学院生、同・菊池雄太特任助教と、九大大学院 薬学研究院の丹羽節教授らの共同研究チームによるもの。詳細は、英科学誌「Nature」系の化学を扱う学術誌「Communications Chemistry」に掲載された。

触媒探索の大幅な効率化に期待

化学産業では、合成プロセスのコスト削減や廃棄物の最小化が強く求められている。そのためには、高性能な触媒が不可欠だ。しかし、ほぼ無限ともいえる候補の中から、経験則や実験ベースの試行錯誤だけで特定の反応に最適な触媒を見つけ出すのは容易ではない。こうした背景から、計算機を活用して触媒を効率的に設計する手法の確立が、触媒開発の加速に向けた重要な鍵となっている。

これまで、既存の実験データを活用し、新規触媒を設計する機械学習やAI手法が数多く提案されてきた。しかし、その多くは限られた反応条件に特化しており、幅広い反応に対応可能な汎用的手法の開発が求められていたとのこと。そこで研究チームは今回、新たな触媒候補の提案と同時にその性能を予測するAI手法を開発するにあたり、指定した条件に基づく生成結果が得られる生成モデルである「条件付き変分オートエンコーダー」を利用したという。

今回の研究では、事前学習済み生成モデル「CatDRX」が開発された。これは、実在する触媒反応から、反応条件と触媒構造を統合的に学習し、指定した反応条件に対して望ましい特性を持つ触媒を提案することが可能だ。さらに反応条件は、反応物、生成物、試薬、反応時間などの要素に分解し、それぞれ個別に特徴量を抽出。これらの特徴を統合した触媒反応ベクトルを条件付き変分オートエンコーダーに学習させることで、さまざまな条件に適した触媒を柔軟に提案可能とした。

  • CatDRXの全体像

    CatDRXの全体像。触媒構造や種々の反応条件の特徴から触媒潜在空間を学習し、触媒の提案と性能予測を実現する(出所:共同プレスリリースPDF)

CatDRXは、「触媒埋め込み」、「条件埋め込み」、「オートエンコーダー」の3つのモジュールで構成される。触媒埋め込みモジュールは、触媒構造を表現したマトリックスからニューラルネットワークにより特徴ベクトルを抽出する役割を担う。

  • CatDRXのデータ処理構造

    CatDRXのデータ処理構造。CatDRXは、入力データの触媒反応条件(反応物、試薬、生成物、時間など)を個別に特徴量ベクトルに変換した後、統合的に学習。反応条件を与えることで、任意の反応に適した触媒の構造を提案と、その性能の予測を行う(出所:共同プレスリリースPDF)

条件埋め込みモジュールは、化学構造を分子グラフとして表現し、グラフニューラルネットワークで特徴ベクトルを抽出する。その他の反応条件は、直接的な数値特徴量とワンホットベクトルを結合したベクトルとして扱う仕組みだ。

そしてオートエンコーダーモジュールは、これらの特徴ベクトルを統合的に学習することで、指定された反応条件に適した触媒を提案可能とする。さらに、反応収率の予測機構が組み込まれているだけでなく、必要に応じて他の触媒活性を予測する機構も個別に追加可能だ。

性能評価の結果、CatDRXは広範な反応条件に対し、安定して良好な性能を示すことが確認された。4種類の異なる反応条件を入力して触媒を提案させたところ、それぞれの反応でよく見られる触媒の概形を保持しつつ、多様な構造が提案された。加えて、潜在空間からのサンプリングを既存触媒に近い分布から行うか、完全ランダムに行うかを使い分けることで、提案触媒の妥当性と探索範囲のバランスが調整可能だ。また、8種類の異なる化学反応における触媒活性予測の比較では、CatDRXは既存手法と同等またはそれ以上の性能を示すことが確かめられた。

  • 触媒提案性能の評価

    触媒提案性能の評価。4種類の反応で提案された触媒のValidity、Uniqueness、Novelty、Validity(Task)が算出された。Validityは化学的に矛盾しない構造が、Uniquenessはユニークな構造、Noveltyは学習データに含まれない構造、Validity(Task)は反応に有効な構造の割合を示す。指定した化学反応に有効な触媒を得るには、既存触媒に近い構造からの提案が効率的。一方、多様な構造の触媒を得るには、潜在空間からランダムに提案させる方法が有効とした(出所:共同プレスリリースPDF)

一方で、C-Cクロスカップリングのように、予測したい化学反応や触媒が学習データと乖離している場合には、予測性能が十分に発揮されず、性能が低下するという課題も判明した。これはAI予測における一般的な課題であり、学習に用いるデータや学習対象とする特徴を拡充することで、より広範な反応系への適用可能性が高まることが考えられるとしている。

  • 触媒活性予測性能の評価

    触媒活性予測性能の評価。8種類の反応について、実際に使用される触媒の性能を複数モデルで予測し、その結果と実験値との誤差がRMSE(二乗平均平方誤差)またはMAE(平均絶対誤差)で評価された。得られた誤差の平均値が棒グラフで示され、エラーバーには標準誤差が用いられている。なお、RMSEとMAEは共に値が低いほど性能が高い(出所:共同プレスリリースPDF)

今回の成果は、AIと人間が協力して高度な成果を目指す「ヒューマン・イン・ザ・ループ」の考え方を加速するものとのこと。さらに、今回は分野横断型の研究成果であり、複雑化・多様化が進む現代の研究分野において、異なる専門性を融合することの重要性を示す好例とする。

研究チームは今後、事前学習に用いるデータセットを拡張し、より多様な反応や触媒に対応できる汎用的なモデル構築を目指す方針。さらに、触媒活性予測や提案される触媒の実現可能性のように、一部のタスクでは新たな課題が見られ、今後さらなる改善も検討しているとした。なおCatDRXは、オープンソースとしてプログラム共有サイトGitHubからダウンロード可能だ。