今日、Webサイトを持っている企業はどこもGoogle検索結果の上位に表示されることがいかに重要かを認識しているはずだ。そのためにさまざまな検索エンジン最適化(SEO)テクニックが考案されており、サイト管理者はこれらをPageRankの上位になるためのキーとなる技術として利用している。

Google検索で上位に表示されるためには、コンテンツが特定の検索キーワードに対して関連性が高いということ、評判が良く関連性があるWebサイトに少しでも多くリンクされること、この2つが重要となる。

Googleのアルゴリズムは複雑だが、SEOテクニックの多くがいまだに、上に記した2つを目標としている。そしてSEOテクニックは合法的、倫理的であり、Googleやその他の検索サービスが認定しているものだが、それだけではない。偽造、スパム、さらにはハッキングなどの手法を通じてGoogleのアルゴリズムをだまそうとする試みもあり、その中には効果にすぐれるものもある。

そのような不正な手法(SEOポイズニング)の1つが「クローキングだ。Googleからみたページとは違うものを人間に表示する行為で、過去にも、"Justin Bieber"をキーワードに検索したユーザーに悪意あるWebサイトに誘導するといった例がある。

Googleではクローキングへの対策として、Pandaエンジンをリリースするといったページランキングアルゴリズムの改善を行っている。今日、きちんと調整されたバージョンは既知のテクニックに対する対策がとれているが、悪意ある人はそれでもアルゴリズムに抜け穴や弱点を見つけようとさまざまな試みを展開している。

SophosLabsのJason Zhangは少し前に、アンチウイルスの検出から、疑わしいPDFファイルをベースとしたSEOポイズニング手法を発見した。短期間ながら、連日多数のPDFドキュメントを受け取っており、これが検出につながった。

ざっと検査してみたところ、クローキング手法を使って検索結果をポイズニングしようとしていることがわかった。この手法の特徴は、Googlebotにフィードしているのが偽造されたHTMLページではなく、PDFを利用している点にある。

ソフォスが経験している範囲内でいえば、Googleのクローキング検出アルゴリズムは、コンテンツがドキュメント形式である場合それほど厳しく適用されてない。Googleはまた、.comなど商用のWebページよりも教育系の.eduや政府系の.govを、そしてHTMLよりもPDFを信頼しているようだ。

これらのPDF内にあるキーワードを使ってGoogle検索を実行してみたところ、同様のドキュメントを多数見つけた。これらは合法的なWebサイト上にあるが、関連性がなく、おそらく攻撃されたものと見られる。特定のキーワードを多く利用しているのに加えて、PDFは他のWebサイトに仕向けるためのリンクも含まれており、いわゆる"back link wheel"を形成している。

このテクニックだけでもGoogleを騙すことに成功しているようで、ドキュメントは検索結果の上位に表示されている。だが、それで終わりではない。(後編に続く)