HTTP Archive

米GoogleのSteve Souders氏は3月30日(米国時間)、主要Webサイトのコンテンツを自動分析してレポートする新しいサービス「HTTP Archive」を開始したことを発表した。

HTTP ArchiveはAlexa、Fortune 500、Quantcastなどのいくつかのデータをベースに主要トップサイト約17,000を選出し、コンテンツの分析結果を報告するサービス。HTTP ArchiveのプログラムそのものはOSSのもとで公開され、分析後のデータもダウンロードできる。

HTTP Archiveに掲載されているデータは2010年10月から収集されたものと説明があり、今後2週間おきにアップデートするとされている。実際のWebページでどういったコンテンツが使われているか知ることは、高速に動作するWebアプリケーションやサーバシステムを開発する上で有益なデータとして活用できる。HTTP Archiveで公開されるデータはひとつの検討資料として価値があるとみられる。

ページ構成コンテンツ別容量(バイト)平均 - HTTP Archiveより抜粋

リソース別レスポンスサイズ平均 - HTTP Archiveより抜粋

JavaScriptライブラリシェア - HTTP Archiveより抜粋

Flash採用ページ割合 - HTTP Archiveより抜粋

画像フォーマットシェア - HTTP Archiveより抜粋

4xxおよび5xxエラーリクエストページ割合 - HTTP Archiveより抜粋

分析結果によると、各ページのデータ容量の6割は画像が占めていることになる。画像はJPEGが4割を超え、GIFが4割弱、PNGが2割弱。6割を超えるページでGoogle Analyticsが活用されているほか、JavaScriptライブラリとしてはjQueryが高いシェアを持っていることがわかる。