日本アイ・ビー・エムは8月1日、国立国会図書館による蔵書の大規模デジタル化作業の一環である全文テキスト化システムプロトタイプ構築事業において、全文テキスト化システムのプロトタイプを開発したと発表した。

同プロトタイプは、推論技術・時間・場所を問わず、インターネットを通じて多くの人々が特定の目的達成支援を行うというアプローチを組み合わせることで、画像からのテキスト化にかかる作業効率を改善するもの。

全文テキスト化システムのプロトタイプの仕組み

主要な機能は「共同校正機能」と「共同構造化機能」。共同校正機能は、Webブラウザ経由で多数の文字校正者が同時に作業を行うことを可能にするとともに、OCRの精度向上を実現する。共同文字校正のインタフェースは、OCRで同じ文字として認識された文字群を一覧表示し、作業者は一括して校正を行うことが可能。

共同文字校正の画面

共同構造化機能は、視覚障がい者などが読み上げソフトを使って書籍を読む際に重要となる構造化を実施するため、構造情報付加機能と読み上げ順序修正機能を提供する。IBM東京基礎研究所で開発された、読み上げ順序を一筆書きで表現してドラッグ・アンド・ドロップ操作のみで修正を可能にする技術を採用し、全文テキスト化された書籍の構造の種類に応じた最適な構造化インタフェースを用意することで、HTMLやXMLといった記述言語の知識がなくても構造化が行えるようになっている。

目次のリンク付けの画面