日立製作所は9月17日、Hitachi Indiaおよびインド情報技術大学ハイデラバード校と共同で、電子カルテから病態や病気の部位などの指定された情報を高精度で抽出する技術を開発したと発表した。
同技術は2014年1月から5月にかけて実施された情報検索技術の医療情報抽出技術コンペ「CLEF e-Health 2014 Task2」にて、情報抽出精度86.8%で総合1位を獲得。2014年9月15日~18日に英国で開催される「Conference and Labs of the Evaluation Forum 2014」にて詳細が発表される。
将来の病気の発症確率予測などを行うには、血液検査結果などの既定フォーマットに入力された情報に加え、医師が記入した電子カルテを分析して得られた情報の活用が必要となる。しかし、電子カルテは、医師によってさまざまな表現で記入されるため、必要な医療情報を抽出する技術が必要とされている。
同技術では、対象情報の抽出精度を向上させるため、あらかじめ用意した学習データに基づき、電子カルテに記入された情報から答えを判定する規則を自動構築する機械学習手法を導入。さらに文中の情報に加え、電子カルテの章や節タイトルなどの文書構造に関するテキスト情報も考慮することで精度を向上させたという。
また、機械学習手法で抽出された情報の精度をさらに高めるため、2つの後処理技術を追加。最初の処理では抽出された語句の前後の文脈を考慮することで、より正確な情報に変換することを可能にした。次の処理では、心電図検査所見や放射線検査所見など、電子カルテの種類を判別し、その種類に適した医療用辞書を用いることで曖昧な単語の意味を決定していく。これらの後処理の導入により、機械学習手法だけでは60%だった病気部位の抽出精度を74%にまで向上したとのこと。
同社は、「この技術を応用することで、医師などが自由形式で記入した文章や既定の書式に記入された検査数値など、さまざまな形式が混在する電子カルテの分析が可能となり、将来の病気の発症確率の予測をはじめ、さらなる医療サービスの高度化が期待される」とコメントしている。