商用利用可能な個人情報抽出向けデータセットやAIモデルを公開、Nishika

AI（Artificial Intelligence：人工知能）に関するコンサルティングや開発サービスを提供するNishikaは8月1日、文章の中から氏名や組織名、地名などの個人情報を機械学習により自動で抽出するためのデータセット、学習済みAIモデル、ソースコードの提供を開始すると発表した。なお、公開期間は2022年10月31日までとのことだ。

同社が今回公開するのは、約200の判例文に2万7000以上の個人情報（人名、組織名・施設名・役職名、地名、時間、商品名など）のラベルが付与された独自データセットだ。データは、同社が収集した判例文のpdfデータをテキスト化し、クレンジング後にテキストアノテーションツールdoccanoを用いて原文のマスキング箇所に対してアノテーションを行った後、架空の名称で置換することにより作成している。

アノテーションを行ったのは、PERSON（人名）、ORGFACPOS（組織名・施設名・役職名）、LOCATION（地名）、TIMEX（時間）、MISC（その他）の5種類。ラベル付の考え方は関根の拡張固有表現階層（v7.1.1）を参考にしている。データの判例文内に記載されている個人情報は架空のものであり、実在の人物の氏名や組織の名称と同一のものがあった場合でも、当該の人物および組織とデータ内の記載内容とは無関係とのこと。

データセット作成の流れ

同社は2021年1月に、判例文の中から個人情報に相当する文言を人名、組織名、地名などの種類別に抽出することを目的としたAI開発コンペティション「判例の個人情報の自動マスキング」を開催していた。

同コンペティションには200名以上が参加し、1位となったAIモデルは人名91.4%、組織名・施設名は81.4%の高精度で個人情報を抽出できたという。同社は今回、同コンペティションで用いた個人情報抽出向けデータセットに加えて、コンペで優勝した学習済みモデル、およびそのソースコードをいずれも商用利用可能として公開するとのことだ。