中国の富士通研究開発、少ない学習データで高精度に文字認識する技術開発

富士通は2月21日、中国の富士通研究開発中心有限公司（以下、FRDC）が、中国古文書文字の高精度な文字認識に用いる深層学習技術において、少ない数の学習データでも高精度な文字認識を実現できる技術を開発したと発表した。

この技術は、古文書の文字画像を、その文字画像と文字を紐づけた学習用データ（教師データ）で学習させる深層学習の認識エンジンと、文字と紐づけられていない二つの文字画像が同じ文字か異なる文字かという特徴を学習する深層学習エンジンを組み合わせて学習させるもの。

同じ文字ラベルを持つ文字画像の特徴パターンと、異なる文字ラベルを持つ文字画像の特徴パターンを比較し、その比較情報を元に認識エンジンを学習

この技術を中国古文書文字認識用のデータとして公開されている1000枚の中国敦煌古籍文献画像を用いたベンチマークに適用したところ、教師データのみを用いて学習する従来技術で得られる81%と同じ精度を、一文字当たり約70%少ない教師データ数で達成できたという。また、本ベンチマークにおいて、一文字当たり50個の同じ数の教師データを用いて学習させた場合に、これまで報告されている82%に対して、本技術では88%の認識率を達成したという。

今回開発した技術は日本語や韓国語など、認識すべき文字の種類が多い用途に対しても認識精度を高めるのに有効で、今後FRDCは本技術を、中国各地の図書館や、古文書画像と検索などの利用ができる電子化テキストが一体に保って保管されている古文書データベース向けに、中国古文書電子化ソリューションとして展開していくという。

また、2018年度にAI技術「Human Centric AI Zinrai（ジンライ）」への活用を目指し、限られた教師データで効果的に深層学習エンジンを学習させる仕組みを、例えば、多数の画像データを認識して分類するような、植物の識別など認識すべき対象が多い用途に適用していくという。