今回はRobert Mueller特別検察官の捜査報告書「Mueller Report (モラー報告書)」について……といっても、トランプ氏とロシア疑惑の話ではない。司法省が公開した報告書のデジタル版を巡ってPDF Associationが上げた不満の声についてだ。米国の政治史に刻まれるであろう歴史的な報告書だからこそ、後世に残すようにきちんとデジタル化して欲しいと訴えている。
今、米国の本屋に立ち寄ると、さまざまな出版社や新聞社が書籍化したモラー報告書が平積みされている。価格は9ドル前後。電子書籍版だと3~4ドル。次の大統領選が話題になり始めたタイミングもあって、モラー報告書はベストセラーに食い込んでいる。でも、報告書を読みたいなら書籍版を購入する必要はない。米司法省が同省のサイトでPDF版を無料で提供している。
ダウンロードして無料で読めるなら「それで十分じゃないか」と思うかもしれないが、PDF Associationは司法省のPDFではデジタルアーカイブとしての条件を満たしておらず、デジタル化して記録保存できる価値を損なっているとしている。
どういうことかというと、モラー報告書はPDFを長期保存するためのISO 19005仕様に従っていない。メタデータに「Ricoh MP 6C502」と記載されており、印刷した報告書からデジタル複合機を用いてPDFを作成したと思われる。しかも、ロスのある圧縮が行われていて、文字のにじみやノイズが目立つ。
内容を読めないような問題ではないものの、モラー報告書は400ページ超である。索引があるとはいえ、必要な情報が記された部分を探してページをめくるのは一苦労だ。そこで活躍するのがテキスト検索であり、検索できてこそのデジタル版といえるが、画像のみのPDFではテキスト検索を行えない。報告書をダウンロードした人がOCRでテキストを抽出すればなんとかなるものの、ノイズが目立つファイルでは読み取りの精度が低くなる。加えて、画像ベースのPDFだから、ほぼテキストだけの内容なのにファイルサイズが140MB近い。
PDF Associationの指摘は、情報のデジタルアーカイブ作りの基準をリハビリテーション法508条に置いているところがポイントだ。リハビリテーション法508条は、米連邦政府の調達基準に関する法律で、政府機関が購入するIT機器やソフトウェア、ウェブサイトが、 障害をもつ職員や国民にも使えるものであることを義務づけている。つまり、身体障害を持つ人を含めて、誰もが情報を得るのが遅くならないよう情報にアクセスできるようにしなけらばならない。
仮にモラー報告書がISO 19005仕様に従ったPDFで司法省に提出されていたとして、それを印刷してスキャンし、デジタルドキュメントとして活用しづらい品質に劣化させてリリースしたとしたら508条に反する。逆に、モラー報告書が印刷された状態で提出されていたなら、司法省によるデジタル化に酌量の余地はある。だが、それでも508条を満たすための努力が足りていたとは言いがたい。司法省はソフトウェアを使って報告書に黒塗りを加えた上でスキャンしている。もしかすると、オリジナルの印刷版をスキャン、黒塗りを追加、印刷、スキャンというように繰り返した可能性がある。
検索性や読み上げの利用だけを考えたら、Wordファイルで提供したり、Webサイトでテキストを公開した方が効果的ではある。しかし、モラー報告書の場合、レイアウトや書式、日付、ロゴ、署名など全てを提出された状態のまま保存し、そのままの状態を見られるようにすることも重要である。報告書をPDFで公開することで、司法省は報告書をそのまま記録し、ドキュメントの編集や改ざんの疑いを避けられる。「PDFはデジタル時代における重要なコミュニケーションの文化的そして技術的な要件を満たす唯一のドキュメント形式である」(PDF Association)と、司法省がPDFを選択したことについては評価している。
PDF Associationの指摘を受けて、司法省は数日後にPDF版のモラー報告書をアップデートした。Adobe Acrobat DCでテキストを抽出して検索を可能にし、また圧縮を見直してファイルサイズはほぼ同じままイメージ品質を向上させた。テキスト検索はやはり便利で、以前のPDF版とは比べものにならないぐらい有用なデジタルドキュメントになっている。
それでもPDF Associationから合格点はもらえていない。急いで対応したのが結果に現れていて、OCRエラーが残され、タグの間違いも散見される。
「これが1999年だったら許されていたでしょう。でも、今年は2019年です。PDFの誕生から26年、PDFが電子ドキュメント形式のデファクトになってから20年以上の時間を経ています。モラー報告書がIBM Selectric (IBMの電動タイプライター)から打ち出されたとは誰も思ってはいないでしょう。だから、(報告書のPDF版が改善された)今でも、なぜ司法省はMueller特別検察官のPDFに黒塗りを入れたままのPDFを公開しないのか、PDFを受け取らなかったのか、それともMueller特別検察官が司法省にPDFを提供しない選択をして印刷版のみを提出したのか、そうだとしたらなぜなのか、といった疑問が残ります」(PDF Association)