寺田倉庫との提携で、貴重書のスキャンから倉庫保管までのワンストップサービス「T-Archive」をローンチした誠勝(関連記事:貴重書の電子化から保管・修復までワンストップで - 寺田倉庫と誠勝が新サービスで描く未来図とは?)。一般的なビジネス書類とは異なる貴重書のスキャン市場において、同社が成功を収めている理由はなにか。今回は誠勝 代表取締役の山本 大視氏に、同社のこれまでの歩みと、貴重書スキャンにまつわるスキャン業界の現状、そして今後の課題について話を聞いた。

高価なスキャナを使えばクオリティが上がるわけではない

山本氏の個人事業からスタートした誠勝は、スキャニング業者の中でも早い時期から法人向けの貴重書のスキャンをターゲットに顧客を獲得してきた。立ち上げ当初はネットで「貴重書のスキャンニング」について調べても、出てくる情報はほぼ皆無。試行錯誤でノウハウを積み上げてきたという。

そんな山本氏は、短い時間にどれだけ多くスキャンできるかという、スキャン事業に取り組む上でたどり着きがちな"効率重視"の姿勢に違和感を覚えていたと話す。

「効率を重要視すると、時間のかかる補正やトリミングなどの作業は行わないのが当たり前となり、結果としてクオリティは後回しになってしまうわけです。果たしてこれで良いのだろうかと」(山本氏)

そこで山本氏は、自分が見たいと思えるデータを作るところから事業をスタートした。

「まずはPhotoshopで補正パターンを一から作り始めました。書籍を問わず、一律に適用するのは無理だとわかったので、現在は書籍1冊ごとに補正値を決め、1000ページなら1000ページに適用するという形を採っています」(山本氏)

機材については、オーバーヘッド型の業務用スキャナに加えて、直角になったガラス面に本を押し当てて角までスキャンが行える「ブックエッジスキャナー」と呼ばれる機種を併用している。いずれも本を解体せずにスキャンが行える、非破壊タイプの製品だ。

「個人事業の頃は市販の複合機を使っていましたが、これではさすがに難しいということで、次にブックエッジスキャナーを導入しました。その後、国立国会図書館のデジタルアーカイブのプロジェクトに関連してオーバーヘッド型のスキャナーの存在を知り、小社にもお客さまから問い合わせが相次ぐようになったため、それを導入して現在に至っています」(山本氏)

ブックエッジスキャナーは十数万円、オーバーヘッド型のスキャナーは百万円以上する業務用の製品だが、高価な製品を使えば必ずしもクオリティが上がるわけではないと山本氏は言う。

「例えばオーバーヘッドのスキャナーは、ノド(本が綴じてある部分のこと)に必ず歪みが出ます。逆にブックエッジスキャナーは、本のノドから1センチ前後は物理的に撮れない制約こそありますが、歪みが出ることはありません。例えば出版社で、過去の雑誌のバックナンバーをDVDに収録して付録につける場合、紙のバックナンバーをスキャンしてデータを作るわけですが、この場合はブックエッジスキャナーが適しているわけです」(山本氏)

一方で、ノドの歪みが出るとされるオーバーヘッド型のスキャナにも強みはある。公文書館のデータなどは、補正をかけると原本を改変したと見なされてしまうため、「こうしたケースではページを開いた状態で上から撮るオーバーヘッドが一番優れています」と山本氏。クオリティを求める出版社の要求には歪みが出ないブックエッジスキャナーを、原本そのままであることが必須の公文書の場合はオーバーヘッドスキャナーを使うといったように、用途に応じてスキャナーを使うことで要望に応えているわけだ。

ノウハウが重要なスキャン業界と話す誠勝 代表取締役の山本 大視氏(奥はT-Archiveを共同運営する寺田倉庫 保管事業グループ 東京支店 支店長 森下 正氏)

非破壊スキャンの隠れたメリットとは

同社のスキャンは本を解体しない、いわゆる"非破壊"にこだわっているが、それゆえ副産物もあるという。aつは価格体系がシンプルになることだ。

「非破壊のブックエッジスキャナーに関しては、カラー、モノクロに差はありませんので、見積もり時のパラメータは解像度だけです。そもそもカラーとモノクロを正確に分けて見積もりを出そうとすると、本のページをすべてチェックしなければならず、お客さまもわれわれもそれだけで疲れ切ってしまいます。書籍が重いと効率が下がるため、今は600ページ以上のみ単価を上げているのですが、将来的にはそこも取り払って、解像度だけで一元管理してしまえば、ページ数さえ教えてもらえれば見積もりを出せるようにしたいですね」(山本氏)

そもそもカラーとモノクロで価格が分かれているのは、ADF(Auto Document Feeder=自動原稿送り装置)を装備したドキュメントスキャナー特有のルールなのだという。

「ADFタイプのスキャナーだと、カラーでスキャンを行った際にほこりが原因のスジが入りやすいために再スキャンになる可能性が高く、それゆえカラーとグレースケールで値段を分けています。上から写真を撮る非破壊スキャンはスジの問題は発生しないため、値段も同じにできるというわけです」(山本氏)

こうした非破壊スキャンだが、発注する側として気になるのは、スキャン中に元の原稿が破損しないだろうかということだ。万が一原稿が壊れてしまっては、非破壊スキャンではなくなってしまう。これについては危険性を判断した時点で、事前に知らせるようにしているそうだ。これをいかに正確に判断できるかは、ひとえに「経験」にかかっているという。

「いくら非破壊スキャンといえども、オーバーヘッドスキャナーだと必ず180度は開かなくてはいけません。それによって壊れてしまう書籍に関しては、現状のスキャン技術では物理的に不可能ですので、お客さまから承った時点でこれは難しいという場合、スキャン前にお伝えするようにしています」(山本氏)

なお、同社が寺田倉庫と組んで行う電子化のワンストップサービス「T-Archive」には劣化した原本の修復なども手掛けるメニューも用意されており、必要に応じてそちらに回すケースも出てくるとのことだ。

dpiが向上

最近は、iPadをはじめとするデバイスの高解像度化が目覚ましい。デバイスの進化に合わせて、データ側、電子化データの高解像度化も進むのだろうか? これについて山本氏は、当然影響が「ある」と話す。具体的には、これまでは主流だった300dpiから、400dpiへ移行しつつあるそうだ。

「300dpiと400dpiはモニター上で見てもそれほど大きな違いはありませんが、400dpiにするとOCRの認識精度が高くなります。それに加えて、最近のデバイスの高解像度化にも合わせ、400dpiが主流になりつつあります。ちなみにPOD(プリント・オン・デマンド)が前提の書籍では600dpiが標準です。どうしても600dpiで、というお客さまもいらっしゃいますが、印刷しないのであればあまり意味はなく、400dpiで十分ですね」(山本氏)

貴重書に含まれているさまざまな文字データを活用できる未来

山本氏が今後の課題として挙げるのは、スキャンした貴重書に含まれている、さまざまな文字データの活用だ。もしあらゆる文字データが検索可能になれば「社会が変わるほどのインパクトがある」と山本氏は語るが、解決しなくてはいけない課題も多いという。なかでも校正にかかるコストは、大きなネックとのことだ。

「スキャンした貴重書から得られた文字データの運用方法は2通りあります。1つはPDFに透明文字として埋め込んでしまう方法で、こちらはPDFと文字データが1つのファイルにまとまりますが、校正が非常に難しい。もう1つは抽出した文字データをデータベースで画像とつなぎ、テキスト検索でヒットすれば画像データが表示されるようにする方法。われわれはこちらの方法を採用し、なるべくローコストで校正が行えるようにしていますが、それでもまだ高価です」(山本氏)

同社が手掛けた事例の中には、貴重書を画像化しただけではなく、文字データの活用まで踏み込んだ例も多い。

「昨年、静岡県の臨済寺というお寺の住職さんが、お世話になった方々に電子データを配布したいということで、寺が所有している重要文化財『鉄山和尚語録』を電子化することになり、当社でスキャンを担当しました。ですが、いかんせん1600年代の本ということもあり、電子化しても何が書かれているかはまったく分からないわけです」(山本氏)

そこで同社では大学教授の協力も仰ぎつつ、白文(※句読点を付ける前の漢文)に起こし、Word文書と電子データを合わせてDVDで配布したのだという。システムを組んでしまえば、白文化したテキストを、画像の上に重ねるなどの表現も可能になる。これは「帳票などのシステムとはまったく違った、芸術的な分野ならではのアプローチというわけです」と山本氏はその取り組みに胸を張る。画像化しただけでは読み取ることすら困難だったであろう文字がデータ化されることで、重要文化財を将来的に活用する第一歩につながる可能性は高く、その意義は極めて大きいと言える。

寺田倉庫との提携による、貴重書のスキャンから倉庫保管までのワンストップサービス「T-Archive」がローンチして間もないが、同社の視線はすでにその先をも見据えている。単なる貴重書の電子化の枠に収まらない、世の中をアッと驚かせるプロジェクトの登場も、そう先の話ではなさそうだ。