富士通研究開発中心有限公司(FRDC)と富士通研究所は11月8日、手書き文字列での画像認識において、信頼性の高い認識結果を出力できる人工知能モデルを開発したことを発表した。
同モデルを適用すると、文字の認識ミスを従来の半分以下に抑えることができ、手書きテキスト電子化入力作業などの効率が大幅に向上するという。
具体的には、従来の文字の教師サンプルに加え、新たに開発した部首やつくりなどのパーツや、文字にならないパーツの組み合わせからなる非文字の教師サンプルによる異種深層学習モデルにより、正しい文字のみに高い信頼度が出力される技術を開発した。
同技術の特徴として、中国語文中で、隣り合って現れやすいパーツの組み合わせを、非文字の特徴として記憶させて重みづけを行うことで、非対称な構造の深層学習モデルに対しても、効果的に学習できる点がある(下図のa)。
もう1つの特徴は、学習済みの異種深層学習モデルに候補領域の画像を入力すると文字と非文字それぞれの信頼度が出力され、文字となる候補領域に高い信頼度を、文字ではない候補領域に低い信頼度を出力する仕組みを設けることにより、文字列中の一つ一つの文字の区切りを効果的に判別することができる点(下図のb)。
今回の認識技術を適用すると、文字として存在しないパーツの組み合わせに対しては、文字としてみた時の信頼度のレベルが低くなるため、文字列の先頭から信頼度の高い区切りを順に選択していくことにより正しい認識結果が得られるとしている。
開発した技術を中国科学院自動化研究所「Institute of Automation,Chinese Academy of Sciences(CASIA)」が2011年に公開し、学会で標準として用いられている手書き中国語データベースに適用したベンチマークにおいて、従来技術に比べて5%上回る96.3%の最高精度を達成したという。