一般にPDFファイルというと、紙の取り扱い説明書や製品カタログの代わりとして作成されるものが多く、「読む」か「印刷する」ものでしかない。しかしS510Mには「Adobe Acrobat 8 Professional」(※3)が付属しているので、もっと高度な利用が可能だ。Windows専用モデルScanSnap S510には「Adobe Acrobat 8 Standard」が付属しているが、こちらは"Professional"、なんと約5万8,000円のソフトウェアが同梱されている。
Mac OS Xでは、OSそのものがPDFを生成機能を備え、OS標準添付の「プレビュー」では、注釈の追加、ページの移動・削除など簡易PDF編集が行える。そのためもあってか、Mac OS X用「Adobe Acrobat 8 Standard」は存在しない。そういった理由で"Professional"を添付したと思われるが、S510MのPFUダイレクト価格は4万9,800円である。"Professional"単体を買うよりも安価な状態となっており、大丈夫なのだろうか? と心配にならないでもないが、ユーザーとしてはこれを活用しない手はない。
S510Mでスキャンして生成されたPDFファイルは、残念ながら文字も画像も区別なく画像として記録されるのだが、「Adobe Acrobat 8 Professional」(以下、Acrobat)にはOCR(Optical Character Recognition)機能がある。PDFデータの中から文字を認識して、テキストデータに変換できるというわけだ。これは、他のアプリケーションでテキストを利用できること以上に、Mac OS Xならではの機能「Spotlight」で検索可能なPDFデータを作成できるという魅力的なメリットがある。
手順としては、まずAcrobatの設定を行う。環境設定ウィンドウを開いたら、「分類」とある左ペインで「PDFからの変換」を指定する。次に右ペイン「変換」にあるリストから「テキスト(プレーン)」を選び、[設定を編集...]ボタンをクリックする。すると「テキスト(プレーン)としての保存の設定」ウィンドウが開くので、「タグなしファイルにタグを作成」のチェックを外し、[OK]ボタンを押すと良い。
![]() |
![]() |
環境設定ウィンドウでは、「テキスト(プレーン)」を選び、[設定を編集...]ボタンをクリック |
「テキスト(プレーン)としての保存の設定」ウィンドウにある「タグなしファイルにタグを作成」のチェックを外す |
また、ScanSnap Managerの「読み取りと保存に関する設定」ウィンドウを開き、[読み取りモード]タブで「画質の選択」を「スーパーファイン」以上を指定する(この画質設定はあくまで今回のテスト向けで、他の書類などであれば標準のままで構わないことも十分ありえる)。[ファイルサイズ]タブで圧縮をもっとも弱い状態(数値は1)にする
ここまでの準備を終えたら記事のスキャンを行い、AcrobatにPDFデータを読み込ませる。この部分は、「読み取りと保存に関する設定」ウィンドウの「アプリ選択」でAcrobatを指定しておくと、スキャンとともにAcrobatが自動的に起動するようになる。
あとは、Acrobat上でメニューバーから[文書] - [OCRテキスト認識] - [OCRを利用しテキストを認識...]を選択すると、テキスト認識が実行される。
上記手順で「Mac Fan」2008年6月号122ページから123ページをスキャンしテキスト認識を行ってみたものが、以下2点の画像だ(一部を抜粋)。OCRによって認識されたテキストと、元になったPDFを比較すると、かなり精度が高いことが分かるはずだ。ただ、記事本文部分や大きめの文字については問題は少ないのだが、記事内の写真に付随するキャプションについては、文章が丸ごと誤って認識されている箇所があり、文字サイズの影響が大きいことが分かった。特に、小さな文字サイズで印刷された縦書きの文章は認識させにくいようだ。
そして最後に、Mac Fan記事中に出てくる単語「スキャンスナップ」をキーワードにして、Spotlightで検索を行ってみたところ、その検索結果としてテキスト認識を行ったPDFデータが表示された。書類や雑誌記事などのPDF化だけでなく、検索しやすさも両立したい場合には非常に役立つだろう。
![]() |
Spotlightによる検索結果。記事に出てくる単語「スキャンスナップ」をキーワードで検索を行った |
なお、OCR認識を行ったPDFからテキスト情報のみを得たい場合は、Acrobatを使ってデータを開き、他のファイルにコピーした方が手っ取り早い。別名保存や書き出しでは先に挙げた「タグなしファイルにタグを作成」の設定を有効にする必要があり、判読できない状態のデータがセーブされてしまう。また「プレビュー」でデータを開いてコピーした場合は、1文字ごとに改行が入った状態の文章となり、使い物にならない。
※3: 「Adobe Acrobat 8 Professional」
Mac OS X Leopardを利用している場合は対応アップデートを適用後使用すること。