富士通研、新聞から97%と文書から固有名詞を高精度に抽出する技術

富士通研究所は11月24日、文章から人名・組織名・地名などの固有名詞を精度良く抽出する技術を開発したことを発表した。同技術により、新聞記事から約97%の精度で人名を正しく抽出し、従来の抽出手法と比較して抽出ミスの数を60%近く減少させることに成功した。

新聞の編集やWebサイトの更新など、大量の文書データを扱う業務において、文書データのキーワード検索やそれを用いた文書作成が大きな割合を占めている。しかし、キーワード検索では、目的のキーワードとは無関係な結果が数多く検索され、必要な情報をすぐに見つけられないという問題がある。

この問題を解決する方法の1つに、固有名詞を判別して抽出することがある。これを実現するには、「固有名詞を文脈情報に基づいて抽出する規則の作成」と「固有名詞を判別するための辞書の作成」を行う技術が必要だ。

こうした背景を踏まえ、今回、同研究所は固有名詞辞書の自動生成手法、生成した辞書を用いる抽出技術を開発した。固有名詞の抽出は、学習フェーズと抽出フェーズの2つのフェーズで処理する。

学習フェーズでは正解事例を基に固有名詞を抽出するための規則を生成し、抽出フェーズでは作成した固有名詞抽出規則を用いて文章から固有名詞を抽出する。

富士通研究所が開発した固有名詞を抽出する仕組み

同技術を用いることで、文書検索や文書作成の支援が可能になる。例えば、検索対象の文書から固有名詞を抽出することで、「川崎」のように地名にも人名もなりうる単語について意味の違いを区別した検索ができ、また、抽出結果を視覚的に示して固有名詞の表記チェックや文書中の個人情報を匿名化する作業を支援できる。

固有名詞の抽出結果を変換した例

同社は同技術を適用した新聞記事作成支援ソリューションを2010年度後半に提供する予定。