富士通は9月8日、化学メーカーなどが材料開発時に行う特許などの化学文書検索を、AIによって実現する「FUJITSU Digital Laboratory Platform SCIDOCSS(SCIDOCSS:サイドックス)」について、同日より提供を開始すると発表した。
同製品はSaaS版とパッケージ版の2つのタイプが販売され、SaaS版の利用は年額1000万円から、パッケージ版は1600万円と初期費用100万円で提供される。なお、両タイプともオプションとして操作トレーニングを20万円で追加可能だ。
同製品はキーワードによる検索に加えて、数十行にわたる文章での検索にも対応し、さらには化学構造式そのものによる検索も可能だ。化合物にはIUPAC名など複数の命名法があり、さらに通称もあるため、1つの化合物に対して複数の名称が存在する。同製品は名称の違いを名寄せするため、幅広い名称で検索できるという。
同社が長年研究開発を行ってきた自然言語処理技術を適用し、同製品が内包する化学文書データベースの文書に対して、AIが検索キーワードの頻出度などから重み付けを行う。これによって、検索キーワードとの関連度が高いものを、利用者にとって重要度が高い情報と判定するとのことだ。
さらに、化学構造式による検索時には、構造式の合致度が高いものを重要度が高い情報と判定するため、キーワードと化学構造式の2つを同時に検索することで、より高精度かつ重要度が高い順に検索結果を表示するのだという。実証実験段階においては、これまで約5日を要していた化学文書の検索業務を、1日で完了できることを確認している。
従来の化学業界における材料開発では、研究者自身の経験やノウハウを基にして、新たな化合物の配合を検討して新材料の開発が行われていた。一方で現在では、研究者に依存しない効率的な材料開発手法を確立するために、ディープラーニングなどのAI技術を活用し、データに基づいて意思決定を行うデータ駆動型の材料開発が進んでいる。
特許を含む化学文書は、物性値をはじめ化合物の合成条件や手順を示す合成プロセス情報が記載されているため、新たな材料開発のアイデアを得るためのデータリソースとして注目を集めている。しかし、膨大な化学文書から適切な情報を抽出するためには、化合物の化学構造式などの特徴や、用途に基づいた化合物の分類など、専門的な知識やノウハウが必要である。
また、検索結果が適切な情報かどうかを一つひとつ判断する必要があり、労力や時間を要することが課題であった。こうした課題を受けて同社は、研究者が求める材料情報を容易に検索可能なAI化学文書検索サービスの提供を開始するとのことだ。