Google検索で本当に知りたい情報の表示を実現しているAIシステムとは？

Googleの日本法人は3月30日、同社のブログでGoogle検索を支えるAI（Artificial Intelligence：人工知能）技術を紹介し、より有用な検索結果を表示するための仕組みを説明した。

Google の検索システム

初期の検索システムでは、単に一致する単語を探して表示するのみだった。その後、よくある言い間違いやキーボードの打ち間違いを検出するアルゴリズムの開発などに取り組んでいる。同社では、新しいAIを導入したからといって既存のアルゴリズムが使われなくなるのではなく、新旧含めたさまざまなシステムを連携して検索を改善しているとのことだ。

それぞれのアルゴリズムや機械学習モデルには役割があり、それらをクエリごとに適切に組み合わせることで有用な検索結果の表示を実現しているという。Google検索に用いられている主なAIシステムとその役割は以下の通りだ。

RankBrain

RankBrain（ランクブレイン）は2015年にGoogle検索に初めて導入されたディープラーニングのシステムだ。「言葉」と「概念」がどのように関連しているかを解析し、検索語句が実世界の概念とどのように関連しているかを学習しているという。これにより、以前は探すことが難しかった情報を迅速に見つけられるようになっている。

例えば「食物連鎖で最上位の消費者とは」と検索した場合、Google検索のシステムは、この場合の「消費者」が人間の「消費者」ではなく、動物である可能性があるということを学習し、「頂点捕食者」や「高位消費者」についての検索結果を表示する。

ニューラルマッチング

Googleは2018年、「クエリ」と「ページ」の関連度をより柔軟に理解するためにニューラルマッチングを導入した。ニューラルマッチングはクエリやページの概念のあいまいな表現を解析し、照合するという。

例えば「緑色　部下を管理する方法」というクエリが与えられた場合に、ニューラルマッチングは単語から連想されるより広い概念に基づいて、検索者が個人の特性を示す4色の色分けによるタイプ診断マネジメントの情報を求めていると認識する。

同社の検索システムがクエリやページで表されるより広い概念を理解することで、クエリに関連する可能性のあるコンテンツを適切に照合できるようになる。大規模で絶えず変化する情報ストリームから関連ドキュメントを取得する作業には不可欠なシステムだとしている。

BERT

BERT（Bidirectional Encoder Representations from Transformers）は同社が開発した自然言語処理モデルであり、2019年に導入している。個々の単語に一致するコンテンツを単に検索するのではなく、単語の組み合わせが複雑な概念をどのように表現しているかを解析するシステムだ。同システムはクエリの単語の並びから、それぞれの単語が互いにどのように関連しているのかを認識する。

例えば、「薬局誰か受け取り」と検索した場合、検索者が知りたいのは本人以外が薬局で薬を受け取ることができるかどうかであると識別できるのだという。BERTの導入前は「誰か」の部分が重要な点であることを理解せずに、処方箋の受け取り方法に関する結果を主に表示していたとのことだ。同システムの導入により、短い単語が時として大きな意味を持つような検索にも適切な検索結果を表示できるようになった。

MUM

MUM（Multitask Unified Model）はGoogleが2021年5月に発表したばかりの技術だ。言語の理解と生成がどちらも可能であり、「BERTよりも1000倍強力」だとしている。「おむすび」と「おにぎり」、「定規」と「物差し」、「サッカー」と「フットボール」のように、同一のものを指す複数の呼び方を識別可能なシステムである。

2021年に同社は、新型コロナウイルス感染症に関する適切な情報を迅速に届けるため、「新型ウイルスワクチン」「mrnaワクチン」「AZD1222」などさまざまな呼び方をされるワクチン情報の抽出を試みている。その結果、50以上の言語から800を超えるワクチンの呼び名のバリエーションを数秒以内に識別できたとのことだ。

なお、MUMは現時点で検索結果のランク付けと品質の向上には使用されていないようだ。