凸版印刷は25日、光学文字認識(OCR)を応用し、江戸期以前のくずし字で記されている歴史的資料に誰でも容易にアクセスできるWebビューア「ふみのは」を開発したことを発表した。同ビューアを使った公開用データ制作サービスの提供を、今年5月から開始予定。

「ふみのは」による表示サンプル

このたび開発された「ふみのは」は、江戸期以前のくずし字(ひらがな、カタカナ、漢字を崩して書いた手書き文字)で記されている古典籍の文字をOCRで判別して、テキストデータに変換するビューア。一般的なWebブラウザを使って、歴史的資料の原本画像の上に翻刻(古典籍などの古い文献を現代の活字等を使って一般に読める形式にすること)や多言語翻訳文を重ねてHTML形式で表示するため、Webブラウザさえあればどこでも表示できる。

従来の原本画像と翻刻文の画像を重ねて表示する方法とは異なり、翻刻文をテキストとして扱えるため、全文検索やインターネット上の横断検索などにも対応する。これにより、全国各地に眠る貴重な歴史的資料をテキストデータとして用意に扱えるようになるという。

また、HTMLやCSSなどの標準的なWeb技術のみで構成されているため、配信のための専用システムや維持管理コストが不要で、ビューア用のデータ制作後、迅速な公開が可能となっている。

「ふみのは」の価格は、原本画像およびテキストからビューア用のデータ生成が1ページあたり2,000円からで、原本のスキャニング、目視またはくずし字OCRよる翻刻、現代語訳、Webサーバー構築費用等は別途必要となる。

制作から公開までのワークフロー

なお、「ふみのは」は、早稲田大学坪内博士記念博物館(東京都新宿区)の演劇映像学連携研究拠点「特色ある共同研究拠点の整備の推進事業(演劇映像学連携研究拠点)機能強化支援」の一環として、4月25日に公開される字形データセットの公開手法として採用されたもの。今後、くずし字判読技術の習得補助や翻刻作業効率化の研究に活用される予定だとしている。

さらに、観光立国の実現に向け同社が従来提供する、訪日外国人の旅の質と利便性向上を目指す「旅道」(たびどう)プロジェクトの活動とも連携し、地方創生に向けた観光地域づくりやインバウンドビジネスなどへの活用にも取り組んでいくということだ。