アドビとPFUは6月15日、「PDFの日」を記念したメディア向け説明会「紙からPDF、そしてAIへ ~AI時代におけるPDF活用とデジタルトランスフォーメーション~」を開催した。
イベントでは、生成AI時代におけるPDFの役割や、紙文書のデジタル化が企業のAI活用に与える影響について解説が行われたほか、紙からPDF、そしてAI活用へとつながる一連のワークフローが紹介された。
「人が読むPDF」から「AIが読むPDF」へ
最初に登壇したアドビ 製品マーケティング本部 プリンシパルプロダクトマーケティングマネージャーの立川太郎氏は、1993年6月15日に「PDF」の原型となった最初の製品である「Adobe Acrobat 1.0」が発売されたことから、6月15日が「PDFの日」として制定されたことを紹介。
PDFは誕生から33年を迎え、現在ではあらゆる業種・業界で利用されるデジタル文書フォーマットとなったことを説明した。
立川氏によると、PDFは「取り巻く環境が大きく変化している」のだという。
「これまでPDFは、人間が閲覧・検索するための文書フォーマットとして活用されてきましたが、生成AIの普及によって、今後は『人だけでなくAIもPDFを読む時代になる』と予測しています」(立川氏)
立川氏は「生成AI+自社の情報資産」が企業独自のAI活用につながると説明し、そのためには、社内に蓄積されたPDFやメール、各種文書をAIが扱える形で整理しておく必要があることを強調した。
PDFは情報コンテナへ進化
立川氏は、多くの人がPDFに対して「編集できないファイル」「文書を固めるためのフォーマット」というイメージを持っていると指摘。
しかし実際のPDFは、テキストや画像だけでなく、フォームデータやメタデータ、セキュリティ情報などさまざまな情報を格納できる「情報コンテナ」であるという。
また、同じように見える文書でも、単なる画像データと適切に作成されたPDFでは大きな違いがあると説明した。
スマートフォンで撮影した紙文書は見た目こそ文書だが、内部的には画像データであり、文字検索やコピー、AIによる活用が難しい。その一方で、テキスト情報を保持したPDFであれば、検索や情報抽出、AIによる解析が可能になる。
生成AIは画像中の文字も認識できるが、企業の情報基盤として活用するには十分ではないという。数十万件規模の文書から必要な情報を瞬時に探し出すためには、文書内のテキストデータが欠かせないからだ。
RAG時代に求められる「検索できるPDF」
続いて立川氏は、生成AI活用で注目されているRAG(Retrieval-Augmented Generation)について解説した。
RAGは、企業内に蓄積されたPDFやOfficeファイル、メールなどを「図書館」としてAIに利用させる仕組み。AIはユーザーの質問に応じて、企業内文書から関連情報を検索し、その内容をもとに回答を生成する。
この仕組みを支えるのが「検索インデックス」だ。検索インデックスは、図書館の目録に相当し、キーワード検索だけでなく意味検索にも対応することで、大量の文書から関連情報を高速に抽出できる。
ただし、検索インデックスに登録するためには文書にテキスト情報が含まれている必要があるため、紙文書をスキャンする際にはOCR(光学文字認識)を実施し、「検索できるPDF」に変換することが重要になる。
立川氏は最後に改めて「生成AIを導入するだけでは足りない。AIが活用できる形で社内情報を整備することが重要である」と総括した。
PFUが語る紙文書とAI活用の課題
続いて登壇したPFU ドキュメントイメージング事業本部 グローバル戦略統括部 統括部長の轡田大介氏は「紙を“使える情報"へ」をテーマに語った。
PFUは、スキャナー「ScanSnap」や業務用スキャナー「RICOH fi Series」、OCRソフトウェア「DynaEye」などを展開し、アナログとデジタルをつなぐ製品群を提供している企業だ。
轡田氏は、ScanSnapが誕生した2001年からPDFを標準フォーマットとして採用してきた歴史を紹介。PDFを選択した理由は、「紙のレイアウトを再現しやすいこと」と、「どの環境でも閲覧できる高い互換性」だという。
その後、PC中心の利用からスマートフォン、クラウド、そしてAI活用へと時代が変化する中で、ScanSnapも進化を続けてきた。現在は「紙をAIへどうつなぐか」が大きなテーマになっているという。
轡田氏は「AIの進化に伴い新たな課題も顕在化している」と指摘した。
企業内には、メール、請求書、契約書、申込書などに代表される大量の非構造化データが存在する。そしてその多くはいまだ紙のまま管理されている。これらは検索や分析、AI活用が難しく、企業のデータ活用におけるボトルネックとなっている。
また、企業間取引では依然として紙文化が根強く残っているのも課題だ。「取引先が紙を指定している」ことから、請求書や契約書を郵送でやり取りするケースも多い。
このような状況を踏まえ、轡田氏は「紙を使えるデータへ変換することが、AI時代の重要なテーマである」と説明。
紙文書をOCRでテキスト化し、PDFとして蓄積することで、企業内に眠る情報資産をAI活用へとつなげられるという。
PDFはAI活用の入口に
今回の説明会を通じて示されたのは、PDFが単なる文書保存フォーマットではなく、AI時代の情報基盤へと進化しているという点だ。
生成AIの導入が進む中で、企業の競争力を左右するのは自社が保有する情報資産である。そして、その情報資産をAIが活用できる形へ変換する上で、PDFとOCRによる文書デジタル化が重要な役割を担う。
アドビとPFUは、「紙からPDF、そしてAIへ」という流れを通じて、企業が保有する膨大な紙文書を価値あるデータへ変換し、AI活用を加速させる未来像を提示した。
PDF誕生から33年を迎えた今、その役割は文書共有のためのフォーマットから、AI時代の知識基盤へと大きく広がろうとしている。







