紙書類をスキャンしたPDFがPCの中にありませんか? Acrobatでは、紙文書をスキャンしてPDFの内容からテキストを認識してテキストデータを付加できます。テキストデータがあれば検索も可能になり、文書管理にも好都合です。今回は、紙文書PDFのテキスト認識機能を紹介します。

紙文書のPDFからOCRでテキスト認識する

紙文書から作成したPDF。近頃の複合機には、スキャンしたデータをPDFで保存する機能もあるので、ますます増えているようです。

ペーパーレス化には一役買っていますが、データとして考えるとどうでしょう。紙文書のスキャンPDFは、言い換えれば画像データをPDFでまとめてあるだけともいえます。そのため、PDFとして保管しておいても、ファイル名以外に検索する術がありません。

そこでAcrobatのOCR機能(テキスト認識)を使い、画像化された文字からテキストデータを作成しておきましょう。OCRとは、Optical Character Readerの略で、画像となってる文字の形状を読み取って、文字データに変換する機能です。Acrobatには、高精度のOCR機能が付いています。

たとえば、つぎのPDFは紙文書をスキャンして作成したPDFです。何も処理していないので、「テキストと画像の選択ツール」でドラッグしても、テキストは選択されません。

紙文書をスキャンして作成したPDF。「テキストと画像の選択ツール」でドラッグしても、テキストは選択されない

では、テキスト認識をしてみましょう。[ツール]パネルを開き、[テキスト認識]の[このファイル内]をクリックします。

[ツール]パネルを開き、[テキスト認識]の[このファイル内]をクリック

[テキスト認識]ダイアログボックスが表示されるので、「すべてのページ」を選択して「OK」をクリックします。「編集」ボタンをクリックすると、PDF出力形式や画像のダウンサンプル解像度などを変更できますが、初期設定のままでかまいません。英語文書など、日本語以外のPDF文書のときは、言語を変更してください。

初期設定のまま「OK」をクリック

処理が終了したら、再度「テキストと画像の選択ツール」でドラッグしみましょう。今度は、テキストが選択されました。

「テキストと画像の選択ツール」でドラッグすると、テキストが選択できます

AcrobatでOCRを実行すると、文字画像の上にテキストデータが作成されています。このテキストデータは透明なので、あたかも紙文書の文字がそのままテキストデータになっているように見えます。

ためしに、簡易検索(Ctrl+F)で文字を検索してみます。ここでは「Acrobat」と検索しましたが、ちゃんと検索されて反転表示されます。

簡易検索でも検索も可能

テキスト認識できなかった箇所を検索

ただし、OCR機能なので、テキスト認識できない箇所もあります。これは、スキャンした際の紙の傾きや、印刷物の汚れなども影響します。

どこが認識されなかったかは、ツールパネルの[テキスト認識]の「OCR不明テキスト」で検索できます。ここでは[最初の不明テキストを検索]を使ってみます。

ツールパネルの[テキスト認識]の[最初の不明テキストを検索]をクリック

「エレメントを対象」ダイアログボックスが表示され、OCRでテキスト認識されなかった箇所が画像で表示されます (1)。同時に、PDF文書内の該当箇所がハイライト表示されます(2)。

「エレメントを対象」ダイアログボックスにOCRでテキスト認識されなかった箇所が表示される(1)。同時に、PDF文書内の該当箇所がハイライト表示される(2)

PDF文書のハイライトされた部分をクリックすると、文字を入力できる状態になります。ここで画像を見ながら正しい文字を入力して修正できます。

ハイライト部分をクリックすると、Acrobatが認識できなかった箇所を手作業で修正できる

正しいテキストを入力したら、「エレメントを検索」ダイアログボックスで[確定して検索]をクリックします。次の認識できなかったテキストがハイライト表示されるので、同様の手順で修正できます。

文字の修正が終わったら「確定して検索」をクリックして、次を検索できます

テキスト認識のメリット

紙文書のPDFも、テキストデータが作成されていれば、Windowsのファイル検索で検索対象となります。ファイル名だけでなくPDFの内容でも検索できれば、PDFの利用価値はさらに上がるはずです。

また、テキストデータがあれば、しおりを作成することもできます。注釈ツールを使ってコメントを入れるのも簡単になります。

テキスト認識のメリットは大きいはずです。

作成メニューの「スキャナーからPDF」はさらに便利

今回は、すでにPDF化された紙文書をテキスト認識しましたが、Acrobatには、「作成」メニューの「スキャナーからPDF」という、スキャナと連動してスキャンしてPDFを作成するメニューコマンドが用意されています。このコマンドは、スキャニングしてPDF作成し、さらにテキスト認識まで一気に行える便利なものです。

自分のPCで自由に使用できるスキャナがあるなら是非試してみてください。