京大、未知の無機半導体材料のバンドギャップ予測で高速で高精度なAIを開発

京都大学(京大)は9月9日、既知の材料の実測値をもとに機械学習法によって未知の材料の物性値を予測するデータ駆動型のアプローチに立脚し、従来は個別に検討されていたニューラルネットワークを組み合わせた「アンサンブル学習モデル」を提案し、同モデルは、化合物の組成のみからの予測を可能とし、無機半導体材料の「バンドギャップ」について、既存の機械学習モデルの中で最高クラスの予測精度を達成したと発表した。

同成果は、京大大学院工学研究科の田辺克明教授、同・増田太一学部生(研究当時)らの研究チームによるもの。詳細は、計算材料科学に関する全般を扱う学術誌「Computational Materials Science」に掲載された。

ニューラルネットワークによる半導体材料開発のイメージ(出所:京大プレスリリースPDF)

バンドギャップとは禁制帯(幅)とも呼ばれ、半導体材料中に電流が流れ始める電圧値の目安となる物性値のことで、半導体の性質を決める最も重要なパラメータとされる。この性質により、半導体は電子の存在や流れを制御することができ、演算や通信を行えるのである。また光の観点からは、半導体から発せられる光のエネルギーや、吸収される光のエネルギーの下限に相当する。

半導体の性能向上のためには新たな材料開発が重要だが、そのためには、未知の半導体材料のバンドギャップを予測することが重要。半導体材料について、元素の組成や原子の配列の構造(結晶構造)からバンドギャップの値を計算する従来の代表的な方法として、密度汎関数理論に基づく第一原理計算などがあるが、計算コストが高いこと、結晶構造を知り、指定する必要があること(そのため構造が未知のものには適用できない)、基本的に絶対零度の温度における物性予測であるため、実用に則した常温周辺での精度に難があるなどの課題があったという。

そこで近年、既存の材料の実測値を網羅的に収集し、それをもとに機械学習法によって未知の材料の物性値を予測するデータ駆動型のアプローチが盛んに検討されている。研究チームは今回、未知の材料においては原子構造が不明であることから、ニューラルネットワークを用いた、元素の組成のみからの半導体バンドギャップの予測を試みることにしたという。

今回の研究では、従来は個別に検討されていた、「勾配ブースティング回帰」、「条件付き敵対的生成ネットワーク」(CGAN)、「メッセージパッシングニューラルネットワーク」(MPNN)などのニューラルネットワークを組み合わせたアンサンブル学習モデルが提案された。

それらの組み合わせにより、最も基礎的な機械学習モデルの1つとされる「単一サポートベクター回帰モデル」(単一SVR)との比較で12％、従来の最良モデルとの比較では5.7％の精度向上が達成されたとした。今回の開発モデルは、実測値に対して平均絶対誤差0.348eVを示し、無機半導体材料のバンドギャップについての既存の機械学習モデルの中で最高となる予測精度が実現されたのである。

単一SVR比の向上率に基づくShapley値を用いた各モデルの寄与度の分析(出所:京大プレスリリースPDF)

さらに、個々のモデルによる予測値をバイアスと分散の観点から分析し、各モデルの特徴が解明された。また、Shepley値、バイアス、分散をもとに各ベースモデルがアンサンブル予測に与える影響が検討されたところ、CGANとMPNNの組み込みが予測精度の向上に大きく寄与していることが判明。

しかしCGANとMPNNを追加すると、アンサンブル予測値の分散が減少する一方で、バイアスは増加してしまうことも示されたとした。つまり、新規半導体材料のバンドギャップを予測するアンサンブル学習モデルを開発する際には、予測精度の向上だけでなく、バイアスと分散のバランスも考慮した解析を行うことが重要とした。また、今回開発されたアンサンブル学習モデルの計算負荷は軽く、一般的なノートPCでも数時間内に実行できたとする。そのため、高速に高精度な予測を可能とする手法であるといえるとしている。

研究チームは今後、今回の機械学習モデルを用いて、各種電子・光デバイス応用に有望な新規半導体材料のスクリーニングと提案を進めていくという。一方で、一般に機械学習モデルは精度の高いものほどその内部機構が不透明になり、その場限りでの計算や予測には力を発揮しても、汎用性や拡張性に乏しいというジレンマがある。そこで、いわゆる"説明可能なAI"(XAI)の技術を活用することで、材料の諸物性とバンドギャップとの相関を系統的に解釈する取り組みも進めており、こちらの成果についても近々発表の予定としている。