野村総合研究所(NRI)は5月26日、新聞記事などのテキスト文書から製品販売/生産/研究開発など企業活動に関するメタデータ(元のデータに対して意味情報を付加するデータ)を自動抽出する、情報抽出エンジン技術の開発を発表した。

抽出したメタデータによって意味や概念を指定した企業検索や分析が可能になり、従来は整理・構造化に人手を要していた企業に関する情報整理を自動化できるとしている。

企業情報を調べるために検索エンジンを使用する場合は目的以外の検索結果も大量に表示されるため、検索結果を手作業で選別しなければならない。一方、情報提供会社が提供する企業情報サービスでは企業名称/銘柄コード/業種などからの検索はできても、具体的な活動や取扱商品などから企業を探すのは難しいのが現状という。

今回NRIが開発した情報抽出エンジンの技術は、テキスト文書を意味解析することで企業活動のメタデータを[主体企業]‐[活動]‐[目的語]の形式で自動的に抽出するもの。例えば「液晶テレビ」を「販売」している企業を探す場合は、[A社]‐[販売]‐[液晶テレビ]という形式で情報を抽出する。

テキストデータからの企業活動メタデータ抽出の概念図

同エンジンの内部では商品や技術用語に関する概念辞書を保有しているため、単に文書に表記されている文字列ではなく、同義語や類義語、表記ゆれを吸収した「概念」としてデータを保持する。そのため、特定のキーワードだけを含んだ検索結果だけでなく、関連したキーワードを含めた検索を実現するとしている。

新技術により新聞記事などから企業活動データベースを作成した上で、以下のような検索や分析が可能になるという。

・「燃料電池」を「研究開発」している企業を検索する
・目的の企業と「業務提携」「資本提携」関係にある企業を検索する
・「エコカー」に関する企業動向を整理して表示する(「エコカー」の下位概念の「燃料電池車」「ハイブリッド車」などに関する企業活動を時系列や活動種類ごとに整理)

情報抽出エンジンの技術の活用例1: 新聞記事データから、燃料電池の研究開発を行っている企業を検索

抽出した企業活動データベースを他の企業データと組み合わせることにより、企業活動の可視化や業界動向分析、企業リスク管理など高度な加工分析アプリケーションへの応用も今後検討していくとしている。

情報抽出エンジンの技術の活用例2: 新聞記事データから個別企業の活動一覧を、活動の種類ごとに整理

NRIは新技術を今後、企業内の情報整理や分析業務高度化のためのITソリューションとして提供していく予定だ。