【レポート】

ICADL2006 - Google Book Search技術担当者が語るデジタルアーカイブ

4 Book Search、今後の"24年"

    美崎薫  [2007/01/09]

    テクノロジーが可能にする!

    「これから24年で、書籍の一次情報へのアクセスをテクノロジーが可能にする。これは革命だ」とクランシー氏は断言する。すべての書籍のオリジナルソース、オリジナル情報にアクセスできるようになるのだ。

    Googleとパートナーによるその1億冊の本の内訳は、次のとおりだ。

    15%は現在出版されていて著作権の現存するもの。65%が著作権が明瞭でないもの。著作権の寿命からいって、1923年以降の書籍がこれに該当する。20%が著作権の切れたもの。

    全書籍のスキャンは物量で解決できる問題であるが、著作権のほうは法的な問題をクリアにする必要がある。「Copyright War」とクランシー氏はいう。

    著作権の状態によって、表示の仕方も変わってくる。たとえば著作権の現存するページは、書籍のうちサンプルのページのみを表示する、明瞭でないものは部分的な表示をする、著作権の切れたものは全ページをページイメージで表示する、というようなかたちになる。著作権者の意向によっては、サンプルのみの表示さえできないこともあるだろう。

    実例として、ここでクランシー氏は、じっさいにGoogle Book Searchにアクセスし、「kyoto history」をキーワードとして入力、Mary Elizabeth Berry著の『The Culture of Civil War in Kyoto』のページをめくってみせた。

    検索にヒットした文字には、イエローのマーカーラインが引かれている。めくるのとは違うが、スクロールできる。本とは違うが、Webページよりもずっと書物としての本に近い。

    この本に、じっさいにGoogle Book Searchを使ってアクセスしてみると、すべてのページは公開されていないことがわかる。つまり、この本は、著作権をもっているか、著作権の状態が不明の書物だということである。洋書には奥付がないことが少なくないので、出版年月がいつかはわからなかったが、アマゾンへのリンクがありそちらを見ると、1997年3月20日発行とある。

    ちなみに、アマゾンのSEARCH INSIDE!(「なか見!検索」)でも、この本のなかのページに、おなじようにアクセスすることができている。スキャンをしているのは、ひとりGoogleだけではないのだ。

    上記のパートナーの図書館に収蔵されていれば、日本語の本もスキャン対象となっている。たとえば日本語ではもっとも一般的なひらがなと思われる「は」で検索すると、319冊の本がヒットする。「の」では4,480冊が、「た」では0冊がヒットした。これで見ると、すくなくとも4480冊程度は日本語の本もすでにスキャンされて検索できるようになっているのである。

    Googleは書物のスキャンに対してふたつのアプローチをとっている

    著作権の状態によって、表示できる状態を変化させる

    この本はアマゾンでも中身を見ることができる

    日本語の本もスキャンの対象となっている。「は」で検索すると319冊がヒットした

    Book Flow Process

    続いてクランシー氏は、米国初代大統領ジョージ・ワシントン(1732年2月22日-1799年12月14日)の日記を開いた。著作権が切れているため、この本は、ほとんど本そのもののように表示される。

    スキャンしたページを見ていくと、たとえば12ページには下に黒い染みがあるなど、ほんとうにその本のありのままの状態に近い形でスキャンしていることがわかる。その他のページを見ても、必ずしもスキャンの精度が高いとはいえない。

    Google Book Searchでは、高いクオリティを求めていないことは見ればすぐにわかる。

    表示がモノクロ表示になっていて、本来書籍のもつカラー情報は失われている。

    このあたりが、写真や絵を忠実に再現しようとするグラフィックスキャンとの作業の違いである。

    「数千万の本があり、それを効率的にスキャンする必要がある」とクランシー氏はいう。「Googleは本をスキャンし、蓄積し、インデックスをつけて検索可能にしてサービスとして提供する」

    ジョージ・ワシントンの日記

    ジョージ・ワシントンの日記の12ページには黒い染みもある

    スキャンした本にはレファレンスページも用意され、本が絶版になっていなければ購入することもできる

    本をスキャンし、蓄積し、インデクシングしてサービスする

    立ちはだかる難題

    じっさいの書物を前にしては、「ページを知る」ということさえもむずかしいことになる可能性がある。

    クランシー氏は、事例をあげる。

    「あるページの肩の部分が斜めに破かれていました。はたしてこれは何ページでしょう?」

    「(破かれて次のページが99ページなのだから)97ページになる!」と、会場の声。

    「OCRで読むとしても、ロシア語と英語とが混在している本の場合、スペルはどうやって判定したらよいでしょう? 日本語のような縦書きの場合には?」

    結局、本というものは、通常思っているよりもずっと柔軟で、これと定まったかたちをもっていない、ということに直面せざるを得ない。これが唯一という真実はないのである。それを機械的に自動的にスキャンする方法は、たぶんまだない。

    「書籍をスキャンする」作業のうち、物理的なスキャンというのは、もっとも単純でかんたんな作業で、それ以外のページを見極めるとか、テキスト化するとか、分類整理するとか、著作権をクリアする(著作権者の権利と公共の利益のバランスを取る)とかのほうが、重要な課題なのだ。

    たとえばページが破かれた本

    ロシア語と英語が混在した書籍のスペルチェックを自動化するには?

    日本語のような縦書き右綴じの場合のページ送りは英文の書物とは逆になる

    Finding Stuff

    「書籍をスキャンするよりも重要なのは、たとえばどうやってわれわれは探したいものを探しているか、ということを考えることだ」とクランシー氏はいう。

    検索するのか、ブラウジングして閲覧するのか、偶然の発見をするのか、検索補助(アシスタンス)によるのか。

    検索するといっても、リッチで明解な構造は存在しない。問題は山積している状態だが、Googleは物量で問題を乗り越えようとしている。

    どうやってひとは探したい情報を探しているのだろうか

    問題は山積し議論しながら進めている、とダニエル・クランシー氏

    関連記事

    関連サイト

    新着記事

    特設サイトの情報

      人気記事

      一覧

      イチオシ記事

      新着記事

      特別企画

      マイナビニュースマガジン