GoogleのWeb地図が1兆ページを突破、Webは無限の広がりに

 

米GoogleのWeb Search InfrastructureチームのJesse Alpert氏とNissan Hajaj氏によると、同社のシステムが把握しているWebの規模が独立したURL数で1兆(1,000,000,000,000)の大台を突破した。

同社はWebページをインデックス化する上で、多くのリンクが張られたページを中心にリンクの先をたどり続けて新たなページを見つける作業を繰り返しながら、膨大なリンク情報を蓄えてきた。その数は1兆を大幅に上回るが、それらの全てが独立したWebページへとつながっているわけではない。同じコンテンツやURLから自動生成されたコピーが複数のURLとなっているケースが多く、そのような重複を取り除いた上で、なお1兆を超えるユニークなURLが確認されているそうだ。

1998年に2600万ページだったGoogleインデックスは2000年には10億に到達した。Web拡大の勢いはすさまじく、今や1日に数十億ページのペースで増加しているという。世界中のあらゆる情報の整理に挑むGoogleだが、Webの世界に存在する独立したページの総数については「分からないし、全てを把握するには時間が足りない。厳密に言えば、現存するページ数は無限なのだ」(Alpert氏/ Nissan Hajaj氏)という。例えばWebカレンダーが翌日にリンクされていれば、未来へのリンクが永遠に続いていくことになる。「現実的にはWebのサイズは実用的なページの規模となるが、それもユーザーごとに定義が異なるから明確な答えは存在しない」(同)。

Googleは1兆ページすべてをインデックス化してはいない。似かよったコンテンツがあれば、Webカレンダーのような自動生成コンテンツもあるためだ。それでも「あらゆる検索エンジンの中でもっとも広範囲にわたるインデックスである」(同)という。

初期の頃は1台のワークステーションが数時間をかけて2600万ページのPageRankグラフを処理し、そのデータを一定期間インデックスとして用いた。すべてのプロセスを定期的に繰り返す作業だった。今日では、Webページを継続的にダウンロードし、アップデートされたページの情報を収集しながら、1日に何度かWebリンクのグラフ全体を処理し直すことで膨大な情報を維持し続けている。1兆のURLで構成されたWebグラフは「1兆の交差点のある地図のようなものだ」(同)という。その数は米国の交差点の50,000倍に相当し、Googleは1日に何度もその全体を探索している。

関連キーワード


転職ノウハウ

あなたが本領発揮できる仕事を診断
あなたの仕事適性診断

シゴト性格・弱点が20の質問でサクッと分かる!

「仕事辞めたい……」その理由は?
「仕事辞めたい……」その理由は?

71%の人が仕事を辞めたいと思った経験あり。その理由と対処法は?

3年後の年収どうなる? 年収予報
3年後の年収どうなる? 年収予報

今の年収は適正? 3年後は? あなたの年収をデータに基づき予報します。

激務な職場を辞めたいが、美女が邪魔して辞められない
激務な職場を辞めたいが、美女が邪魔して辞められない

美人上司と可愛い過ぎる後輩に挟まれるエンジニアの悩み

人気記事

一覧

イチオシ記事

新着記事

小柳歩、"舐め"オンパレードで「セクシーというよりはエロい」
[00:00 8/28] エンタメ
Fカップ松嶋えいみ、2人の男性からマッサージ「私生活でもやって欲しい」
[00:00 8/28] エンタメ
さんま『さんまのまんま』終了理由「制作費」と明かすも、 実は別に理由が?
[23:55 8/27] エンタメ
「PINコード」とは - いまさら聞けないスマートフォン用語
[23:04 8/27] スマホとデジタル家電
[鈴木保奈美]10年後も「元気で身軽な人でいたい」
[22:40 8/27] エンタメ

求人情報