Google検索、BERT採用で検索クエリの文脈を理解、過去5年で最大の進歩

米Googleは10月25日 (現地時間)、自然言語処理のための言語モデル「BERT」を同社の検索サービス「Google検索」に取り入れることを明らかにした。文章のように書かれた長い検索クエリでも文脈を理解するようになり、BERTモデルによって検索全体の10％の検索結果が改善する。まずはUS英語から採用し、他の言語にも展開していく計画だ。

Googleが2018年に公表したBERTは、文章を処理するニューラルネットワークにおいて、前後の文章から文脈を判断して適切な単語を予測するような精緻な言語処理を可能にする。GoogleはBERTモデルを利用できる20カ国以上で検索結果のスニペット (ページの要約)にBERTを使い始めたが、それを検索結果のランキング表示の仕組みにも拡大する。

例えば、「parking on a hill with no curb」(縁石のない坂道に駐車)という検索。坂道の駐車は自動車運転免許の試験でよく出される問題の1つだが、検索語を複数の単語として捉える従来の検索アルゴリズムは、curb (縁石)の前の「no」の存在を重視せず、「縁石のあり/なし」以上によく出題される「上り坂と下り坂の駐車方法の違い」のページを上位に表示する。BERTが採用されたGoogle検索は「no curb」(縁石のない)の意味を汲み取って、縁石のあり/なしにおける駐車方法の違いを説明するページを上位で紹介する。

従来のGoogle検索(左)とBERTを取り入れたGoogle検索で「parking on a hill with no curb」という検索の結果を比較

もう1つ例を紹介すると、「2019 brazil traveler to usa need a visa」という検索。2019年に米国を旅行するブラジル人のビザに関する検索だが、従来のGoogle検索では「to」の意味が反映されず、米国市民がブラジルを旅行する際のビザ情報ページが上位に表示される。BERT採用後は「to」による前後の関係を理解し、米国大使館がブラジル人旅行者向けに提供しているビザ情報ページが検索トップになる。

BERTを取り入れたGoogle検索は「to」や「for」による前後の文章の関係を理解する

人々が入力する検索語は様々で、今でもGoogle検索に入力される検索のおよそ15％はそれまでに存在しなかった検索だ。そうした初めての検索クエリでも、Google検索が文脈を理解すれば、キーワードのみからよりも適切な結果を表示できるようになる。「我々が取り組んでいる検索クエリを理解する方法の意義深い向上は、過去5年で最も大きな進歩であり、検索の歴史における最大の飛躍の1つに数えられます」とGoogleフェローのPandu Nayak氏は述べている。