京都大学(京大)は3月8日、複雑なAIやビッグデータを用いずに高い精度で薬物の候補物質をスクリーニングする手法を開発したと発表した。

同成果は、京都大学医学研究科 J.B.Brown講師らの研究グループによるもので、3月6日付けの英国科学誌「Future Medicinal Chemistry」に掲載された。

現在、世界各国で膨大な化合物のデータを用いた新薬の候補物質探索が行われている。数百万以上の化合物と疾患治療の標的となるタンパク質の反応をひとつずつ調べるには膨大な資金と時間がかかるため、人工知能や数理モデルを用いて望ましい性質を持つ化合物を絞り込む必要があり、バイオインフォマティクスを用いた仮想スクリーニングへの注目が集まっている。一方で、ディープラーニングや人工知能、ビッグデータ解析による薬効の予測に関しては、予測精度をわずかに上げるのに膨大なデータが必要だという課題もある。

同研究グループが今回構築したモデルは、アクティブラーニングという機械学習手法を用いて化合物の薬効予測を行うもの。データベースに含まれるタンパク質と化合物に関するデータのなかから反応する組み合わせと反応しない組み合わせを選び、それぞれの特徴をモデルに学習させ、学習した特徴から化学反応が起きるかどうかを予測し、予測の結果を評価したうえで、精緻化に必要なデータをモデルに追加するという仕組みになっている。

今回の研究では、化合物とタンパク質が反応するかどうかを決定木という手法で分析。モデルでは決定木を500本作り、解析結果の評価の仕方が異なるCuriosityとGreedyという2種類のモデルを構築した。

3つのデータベースでそれぞれの予測精度を検証した結果、ランダムに選んだデータから活性予測をした場合に比べて予測精度が高くなることがわかった。また全実験データのうち10~20%程度を入力するだけで高い予測精度が得られており、特にCuriosityでは全体のデータおよび個々の標的タンパク質に対して良い結果を得ることができたという。

また、これまではデータベースによって化合物の分子量や構造の表現の仕方(記述子)が異なっており、記述子の違いによってモデルの精度に揺れがあるという問題があったが、同モデルでは、テストで用いたデータベースと異なる記述子で化合物が記載されているデータベースでも高い精度で反応を予測することができる。

今回の研究で用いたデータベースは約4万点の化合物が含まれているものであったが、今後同研究グループは、同モデルで数百万単位のデータを扱う際にも高精度で反応が予測できるのか検証していくとしている。

今回の研究成果の概要(出所:京都大学Webサイト)