米Appleが書籍の内容解析サービスを提供する米BookLampを買収したことが話題になっている。買収直前まで、BookLampは「Book Genome Project」と呼ばれる書籍の内容解析結果をデータベース化するプロジェクトを推進しており、将来的にAppleがiBooksなどのサービスで商品の推奨エンジンや書評などで活用していくことが予想される。
同件はAppleが買収を認めたことをRecodeが7月25日(米国時間)に報じている。初出はTechCrunchで、後にAppleから買収を認めるコメントを掲載したほか、関係筋からの話で買収総額が1000万~1500万ドルのレンジにあることを報じている。
BookLampはもともと2003年に米アイダホ州ボイシ(Boise)でスタートした学生プロジェクトが発端で、現在も拠点を同都市に置いている。詳細はPublishing Perspectivesに詳しいが、市販の書籍をスキャンして内容を取り込んで内容解析を行うという手作業でスタートしたプロジェクトは、現在では出版社から書籍データを入手することで内容解析エンジンにかけるという半自動化作業が行われており、2011年時点でRandom HouseとKensington Publishersの書籍を中心に2万ものテキストを6億5000万の「データポイント」と呼ばれる要点として蓄積し、さらに数ヶ月かけて要素を絞り出していくような形で進行していた。
興味深いのはその解析手法だ。一部専門家は「Pandora for Books」のように表現しているが、BookLamp CEOのAaron Stanton氏はこうした「データポイント」による要点解析を「本のDNA」と表現しており、これが表題の「Book Genome Project」につながっている。
例えば1冊の本について3万2160のデータポイントを抽出し(3年前の話なので現在はさらに数が増えているとみられる)、これを100種類のシーンに分割し、さらに132の異なるテーマや2000種類の変化要素へと変換する。その結果、「The Da Vinci Code(ダ・ヴィンチ・コード)」のケースでいえば内容の18.6%が宗教関係、9.4%が警察や殺人捜査、8.2%が美術や美術館関係、6.7%が秘密団体の話……といった具合に、本が持つ要素がデータ化されてわかるようになる。これを用いることで、例えばある推理物小説が好きな人が、やはり似たような作品を探すのに「内容的に近い」ものを機械的に抽出することが容易になる。
これまでの推奨(レコメンデーション)エンジンは「同じ読書動向を持つ他の人がこれを選んだのだから、あなたもきっとこれを気に入るだろう」という、一種のSNS的な「他者の購買や閲覧履歴の蓄積を基に推奨精度を向上させていく」手法がよく採られてきた。だがコンピュータ自身が本の内容を理解できるようにすることで、これを本当の意味で「コンピュータがあなたに推奨する本」という形で提示できるようになるのは、技術的にも面白い。
なお、過去の買収の例に漏れず、BookLampもすでにサービスが閉鎖されてその旨の告知がWebサイト上に掲載されている。同サイトではAppleの名前を出していないが、Book Genome Projectの終了とサイト閉鎖はAppleの買収が原因なのは明らかだ。時期は不明ながら、近い将来にAppleのサービスでこのBookLampのBook Genome Projectの成果が見られる日がくると考えられる。