NIIとSansan、名刺情報サンプルデータを研究用データセットとして無償提供

国立情報学研究所(NII)とSansanは5月23日、研究コミュニティーへの研究用データの提供について提携し、NIIが同日よりSansanが所有する名刺情報のサンプルデータを「Sansanデータセット」として研究コミュニティーに無償提供すると発表した。

サンプル名刺データの画像の例

NIIは2010年に情報学研究データリポジトリ(IDR)を設置し、さまざまな企業や機関が保有する各種のデータセットを受け入れて研究コミュニティーに提供を行っている。2015年には、情報学研究に有用なデータセットを整備して研究者に提供。

また、データセットの構築とその活用基盤に関する研究開発を行うデータセット共同利用研究開発センターを新設し、研究コミュニティーへのビッグデータの提供をさらに強化するとともに、大規模な実データと最先端情報技術を活用したデータサイエンス研究の加速に取り組んでいる。

一方、Sansanでは通常のドキュメントに比べて非定型でフォントやフォントサイズ、レイアウトなどのフォーマットが決まっていない名刺を年間数億枚も正確にデータ化しなければならないことから、画像処理、機械学習のスペシャリスト、データサイエンティストが技術を進化させるような専門性の高い研究に取り組み、独自開発した名刺データ化システムと人力オペレーションを組み合わせたデータベースを構築している。

個人情報である名刺はデータソースが限られるため、大学や研究機関での名刺の画像解析の研究は活発化しにくいのことが現状としてあり、こうしたことから、Sansaでは2016年にデータサイエンティスト向け分析コンテストを開催するなど、オープンイノベーションを進めてきた。

今回、NIIに提供するデータはSansaが2016年に実施したデータサイエンティスト向け分析コンテストにおいて、使用された最大9種類の項目(会社名、名前、役職、郵便番号を含む住所、電話番号、FAX番号、携帯電話番号、電子メールアドレス、webサイトのURL)の情報を含むサンプル名刺をスキャンした画像データ3841枚分。

同データはSansaが自社で作成した架空の名刺であり、特定の企業や個人につながる情報や人物を特定できる個人情報は含まれていない。Sansanデータセットは、NIIのデータセット共同利用研究開発センターのIDRを通じて提供される。

SansaはNIIを通じてサンプル名刺データを広く研究コミュニティーに提供することにより、画像処理や機械学習の研究の発展に貢献できることを期待しているという。NIIでは、今後もデータセットの拡充とデータセット共同利用の深化のための研究開発に取り組み、より多くの研究者が自由な発想で研究に利用できるようにするためのシステムプラットフォームの構築を進めていく方針だ。