【レポート】
「これから24年で、書籍の一次情報へのアクセスをテクノロジーが可能にする。これは革命だ」とクランシー氏は断言する。すべての書籍のオリジナルソース、オリジナル情報にアクセスできるようになるのだ。
Googleとパートナーによるその1億冊の本の内訳は、次のとおりだ。
15%は現在出版されていて著作権の現存するもの。65%が著作権が明瞭でないもの。著作権の寿命からいって、1923年以降の書籍がこれに該当する。20%が著作権の切れたもの。
全書籍のスキャンは物量で解決できる問題であるが、著作権のほうは法的な問題をクリアにする必要がある。「Copyright War」とクランシー氏はいう。
著作権の状態によって、表示の仕方も変わってくる。たとえば著作権の現存するページは、書籍のうちサンプルのページのみを表示する、明瞭でないものは部分的な表示をする、著作権の切れたものは全ページをページイメージで表示する、というようなかたちになる。著作権者の意向によっては、サンプルのみの表示さえできないこともあるだろう。
実例として、ここでクランシー氏は、じっさいにGoogle Book Searchにアクセスし、「kyoto history」をキーワードとして入力、Mary Elizabeth Berry著の『The Culture of Civil War in Kyoto』のページをめくってみせた。
検索にヒットした文字には、イエローのマーカーラインが引かれている。めくるのとは違うが、スクロールできる。本とは違うが、Webページよりもずっと書物としての本に近い。
この本に、じっさいにGoogle Book Searchを使ってアクセスしてみると、すべてのページは公開されていないことがわかる。つまり、この本は、著作権をもっているか、著作権の状態が不明の書物だということである。洋書には奥付がないことが少なくないので、出版年月がいつかはわからなかったが、アマゾンへのリンクがありそちらを見ると、1997年3月20日発行とある。
ちなみに、アマゾンのSEARCH INSIDE!(「なか見!検索」)でも、この本のなかのページに、おなじようにアクセスすることができている。スキャンをしているのは、ひとりGoogleだけではないのだ。
上記のパートナーの図書館に収蔵されていれば、日本語の本もスキャン対象となっている。たとえば日本語ではもっとも一般的なひらがなと思われる「は」で検索すると、319冊の本がヒットする。「の」では4,480冊が、「た」では0冊がヒットした。これで見ると、すくなくとも4480冊程度は日本語の本もすでにスキャンされて検索できるようになっているのである。
続いてクランシー氏は、米国初代大統領ジョージ・ワシントン(1732年2月22日-1799年12月14日)の日記を開いた。著作権が切れているため、この本は、ほとんど本そのもののように表示される。
スキャンしたページを見ていくと、たとえば12ページには下に黒い染みがあるなど、ほんとうにその本のありのままの状態に近い形でスキャンしていることがわかる。その他のページを見ても、必ずしもスキャンの精度が高いとはいえない。
Google Book Searchでは、高いクオリティを求めていないことは見ればすぐにわかる。
表示がモノクロ表示になっていて、本来書籍のもつカラー情報は失われている。
このあたりが、写真や絵を忠実に再現しようとするグラフィックスキャンとの作業の違いである。
「数千万の本があり、それを効率的にスキャンする必要がある」とクランシー氏はいう。「Googleは本をスキャンし、蓄積し、インデックスをつけて検索可能にしてサービスとして提供する」
じっさいの書物を前にしては、「ページを知る」ということさえもむずかしいことになる可能性がある。
クランシー氏は、事例をあげる。
「あるページの肩の部分が斜めに破かれていました。はたしてこれは何ページでしょう?」
「(破かれて次のページが99ページなのだから)97ページになる!」と、会場の声。
「OCRで読むとしても、ロシア語と英語とが混在している本の場合、スペルはどうやって判定したらよいでしょう? 日本語のような縦書きの場合には?」
結局、本というものは、通常思っているよりもずっと柔軟で、これと定まったかたちをもっていない、ということに直面せざるを得ない。これが唯一という真実はないのである。それを機械的に自動的にスキャンする方法は、たぶんまだない。
「書籍をスキャンする」作業のうち、物理的なスキャンというのは、もっとも単純でかんたんな作業で、それ以外のページを見極めるとか、テキスト化するとか、分類整理するとか、著作権をクリアする(著作権者の権利と公共の利益のバランスを取る)とかのほうが、重要な課題なのだ。
「書籍をスキャンするよりも重要なのは、たとえばどうやってわれわれは探したいものを探しているか、ということを考えることだ」とクランシー氏はいう。
検索するのか、ブラウジングして閲覧するのか、偶然の発見をするのか、検索補助(アシスタンス)によるのか。
検索するといっても、リッチで明解な構造は存在しない。問題は山積している状態だが、Googleは物量で問題を乗り越えようとしている。
| ICADL2006 - 京都のデジタルアーカイブ - 長尾真教授 講演 [2006/12/18] |
| ICADL2006 - アウラリー: フォークソノミー的「成長するメタデータ」 [2006/12/19] |
| ICADL2006 - 雑誌データベースを5年で構築!? GeNiiスタート中 [2006/12/23] |
| フォークソノミー、マッシュアップ…研究とビジネスのコラボ始まるか? - PLACE+ [2006/11/28] |
| PlaceEngineは「位置情報2.0」 - 位置情報とLifelogの可能性 [2006/11/25] |
| 書籍検索「Google Book Search」にPDF形式のダウンロード機能 [2006/8/31] |
| Google Book Search日本版「Google ブック検索」、日本ではどう動くか [2006/5/12] |
| Hypertextの父・Ted Nelson氏、来日 - 可視化されたHyperlinkの世界"FloatingWorld" [2006/4/11] |
| 超漢字Vの進化 - Windows上でTRONを使う [2007/1/1] |
| 「記憶する住宅」そして未来へ - 記憶を発想に高めるコンピュータ環境を作る [2006/7/18] |
| NHK出版、「Think Simple アップルを生みだす熱狂的哲学」公式サイト開設 [11:49 5/24] |
| 時の経過を記録できるスマホ向けカメラアプリ「じぶんキロク」 [11:49 5/24] |
| paperboy&co創業者の家入さんやグーグル前社長の辻野さんとランチができる! [11:49 5/24] |
| JSTからジー・サーチに、科学技術文献情報提供サービス「JDream」を移管 [11:49 5/24] |
| iPhoneでGoogleが使いやすくなる「Google Search」アプリ新版 [10:59 5/24] |
|
[安室奈美恵]自身初の全国5大ドームツアー開催へ ファン投票で楽曲決定 [04:00 5/25] ホビー |
|
[森高千里]デビュー25周年で“200曲”をセルフカバー YouTubeで公開 [04:00 5/25] ホビー |
|
人気アクションフィギュア『武装神姫』、TVアニメ化決定! 2012年秋放送予定 [03:06 5/25] ホビー |
|
今井麻美、9thシングル「Limited Love」を7/25発売! コープス最新作OP曲 [02:33 5/25] ホビー |
|
TVアニメ『あっちこっち』、ニコ生で「あっちこっちラリー」企画を発表 [02:17 5/25] ホビー |