東芝デジタルソリューションズは1月31日、読み取り位置を事前に設定しなくても、受発注伝票や見積書などさまざまな書式・レイアウトの非定型文書から、必要な項目を探し出して読み取る文字認識サービスを販売開始した。

従来のOCRは、専用帳票を作成し、読み取り位置などの詳細定義が必要なため、業務で扱われる紙文書の多くをOCR帳票化することは運用面から難しかった。

対する新サービスは専用のスキャナが不要で、オフィスの複合機などで作成した紙文書のイメージデータから、簡単な操作で必要な文字を認識することが可能。

また、面倒な読み取り位置の詳細定義も不要で、キーワード(読み取りたい項目)を登録するだけで該当する項目を探して活字を読み取るので、さまざまな書式の非定型文書で利用できる。

  • 項目サーチ機能(非定型文書から該当項目を探し出して活字を読み取り)の仕組み

特に「請求書」については、合計金額や請求番号などの主なキーワードを事前登録してあるのですぐに利用でき、合計金額・総合計・御合計などの言葉の「ゆらぎ」にも対応している。

提供形態は、クラウドサービス、オンプレミス(今後提供予定)、APIから選択可能。