AI(Artificial Intelligence:人工知能)に関するコンサルティングや開発サービスを提供するNishikaは8月1日、文章の中から氏名や組織名、地名などの個人情報を機械学習により自動で抽出するためのデータセット、学習済みAIモデル、ソースコードの提供を開始すると発表した。なお、公開期間は2022年10月31日までとのことだ。

同社が今回公開するのは、約200の判例文に2万7000以上の個人情報(人名、組織名・施設名・役職名、地名、時間、商品名など)のラベルが付与された独自データセットだ。データは、同社が収集した判例文のpdfデータをテキスト化し、クレンジング後にテキストアノテーションツールdoccanoを用いて原文のマスキング箇所に対してアノテーションを行った後、架空の名称で置換することにより作成している。

アノテーションを行ったのは、PERSON(人名)、ORGFACPOS(組織名・施設名・役職名)、LOCATION(地名)、TIMEX(時間)、MISC(その他)の5種類。ラベル付の考え方は関根の拡張固有表現階層(v7.1.1)を参考にしている。データの判例文内に記載されている個人情報は架空のものであり、実在の人物の氏名や組織の名称と同一のものがあった場合でも、当該の人物および組織とデータ内の記載内容とは無関係とのこと。

  • データセット作成の流れ

    データセット作成の流れ

同社は2021年1月に、判例文の中から個人情報に相当する文言を人名、組織名、地名などの種類別に抽出することを目的としたAI開発コンペティション「判例の個人情報の自動マスキング」を開催していた。

同コンペティションには200名以上が参加し、1位となったAIモデルは人名91.4%、組織名・施設名は81.4%の高精度で個人情報を抽出できたという。同社は今回、同コンペティションで用いた個人情報抽出向けデータセットに加えて、コンペで優勝した学習済みモデル、およびそのソースコードをいずれも商用利用可能として公開するとのことだ。