オープンソースのOCRシステム「OCRopus」がGoogle Codeで公開

    海上忍  [2007/04/13]

    OCRopusプロジェクトは、オープンソースプロジェクト向けのホスティングサイト「Google Code」上で、光学文字認識(OCR)システム「OCRopus」のα版をApache License 2.0のもと公開した。LinuxをはじめとするUNIX系OSで動作するが、確認はUbuntu Linux 6.10で行われている。

    OCRopusは、文字認識エンジンと文書解析機能を含むOCRシステム。ドイツ人工知能研究センター(DFKI)の研究グループの1つ「Image Understanding and Pattern Recognition」(IUPR)が中心となり、DFKIのThomas Breuel教授指揮のもとに開発が進められている。Google Code上でのソースコードの公開は、Googleがスポンサーについたことを契機とするもの。

    プラグラムには、アメリカ国勢調査局によって90年代半ばに採用された手書き文字認識システムと、新開発の高性能なレイアウト分析機能が搭載されている。文字認識プラグインとして同じくGoogle Codeで公開されている「Tesseract」を使用しているため、現時点における文書解析の精度はTessetactと同レベルとのこと。

    ソースコードのビルドには、ビルド支援ツール「jam」のほか、画像ライブラリのlibpng/libjpeg/libtiff、そしてスペルチェッカーのaspellが必要。

    関連記事

    関連サイト

    新着記事

    特設サイトの情報

      人気記事

      一覧

        イチオシ記事

        新着記事

        特別企画

        マイナビニュースマガジン