富士通研究所、富士通研究開発中心有限公司、Fujitsu Laboratories of Europe Limitedは、国や企業が所有するデータと、世界中で公開されているLinked Open Data(LOD)との間で、同じ対象を表現するデータを発見し、リンクを自動的に付与する技術を開発したと発表した。

LODとは、W3Cによって策定されたデータ公開形式「Linked Data」に従って公開されているデータセット群。個々のデータは、異なるWebサイトで公開されているデータにリンクを付けることが推奨されており、データ利用者はこのリンクを辿ることで複数のWebサイトを横断して目的のデータを利用することができるが、ほかのWebサイトのデータにリンクを付けるためには、公開されているデータの内容を理解し、関連するデータを発見する必要があり、LODの仕組みでデータを公開する際の課題となっていた。

今回発表された新技術は、こうした課題を解決するもの。データを解析したうえで同一データを推定するアルゴリズムと、大量のデータを集めて目的のデータとマッチングさせる「LOD活用基盤」との連携によって成り立っている。

推定するアルゴリズムの概要は以下の図のとおり。

開発したアルゴリズムの概要

表記の類似度を利用してデータ構造の類似度を測定したうえで(1)、LOD内のデータ構造を利用して同じ対象の異なる表記を収集し(2)、データ構造および表記の類似性をパラメーター化し、機械学習手法を用いて同一性を判定する(3)。

また、LOD活用基盤は、世界中で公開されているLODを収集して一括検索できるようにしたシステム。人が利用するための検索インターフェースと、アプリケーションが利用するための標準APIを提供している。LODの特性上、日本語や英語のみならず、各国語版のデータセットに対しても同時にリンクを付与することが可能で、さまざまな分野での活用が期待されている。

富士通研究所では、本技術と連携可能なLODの検索サービスを、2014年1月中に一般公開し、運営する予定。

検索インターフェースの表示例