米Googleは9月29日(現地時間)、Google検索とAI技術について語るイベント「Search On '21」を開催し、MUM(Multitask Unified Model)による言葉と画像を組み合わせたマルチモーダル検索を披露した。同社はまた、MUMを含むAI技術をGoogle検索に活かす4つの新機能も明らかにした。

人は言葉だけではなく身振り手振りや表情も使ってコミュニケーションしている。マルチモーダルは「複数の手段」や「複数の形式」を意味し、AIにおいては様々な種類の入力情報を利用することを指す。

例えば、見つけたシャツと同じ花柄の靴下が欲しいと思ったとする。MUMによるマルチモーダル検索なら、Google Lensを使って花柄のシャツをビジュアル検索した結果から、さらに「Socks with this pattern」(同じ柄の靴下)と質問を重ねて、同じ花柄の靴下のビジュアル検索結果を引き出せる。これを言葉のみで検索しようとすると、「white floral Victorian socks」(白 花柄 ビクトリアン調 靴下)というように絞り込んだとしても同じような結果は得られない。1つのクエリにおいて画像とテキストからの情報を理解する技術によって、より自然でユーザーが望む検索が可能になる。

  • マルチモーダル検索の例

    花柄のシャツをGoogle Lensでビジュアル検索、同じようなシャツが並ぶビジュアル検索結果において「同じ柄の靴下」とテキストで"質問を追加"、同じような花柄の靴下を見つけられる

別の例を紹介すると、自転車後輪の変速機が壊れたとする。「Derailleur」という故障した部品の名前を知らないとテキストによる検索は難しいが、マルチモーダル検索ならスマートフォンのカメラを通じて故障した部分にGoogle Lensを向け、ビジュアル検索の結果で「how to fix」(修理方法)と質問する。結果にディレーラーの修理を解説する動画などが並ぶ。

  • マルチモーダル検索の例

    花柄の靴下を見つけたのと同じように、パーツ名が分からない故障カ所の修理方法を画像と言葉で検索

Googleは2018年にBERT(Bidirectional Encoder Representations from Transformers)という自然言語を機械に理解させる処理技術を発表し、翌年にGoogle検索に導入した。そして今年の5月に、多言語モデルの新たなステップとしてGoogle I/OにおいてMUMを発表した。75の異なる言語を学習し、それらの言語による情報を一般化できる。例えば、英語で入力した検索に日本語やフランス語のみで提供されている情報も反映させるというような言語の壁を越えた検索を可能にする。Googleは6月にCOVIDワクチン関連の検索にMUMを導入した。COVIDワクチンの呼び方には50言語で800を超えるバリエーションがあり、また言語によって提供されている情報量に差がある。MUMはそれらを識別して整理し、信頼性の高い情報を検索で提供できるようにした。

MUMは本質的にマルチモーダルであり、Google I/Oでテキストと画像を組み合わせたマルチモーダル検索の可能性も示していた。その成果が今回の発表だ。ビジュアルと言葉で探索を深められる新しい手段として、数カ月中に英語版で提供を開始する予定。

検索ページを再設計してAI技術を活用

Googleは、MUMのようなAI技術を利用して検索ユーザーがより簡単かつ自然に目的の情報を得られるように、検索ページの再デザインに取り組む。

まず、「Things to know」で目的の情報に辿り着くのを手助けする。例えば、「acrylic painting」というシンプルな検索に対して、「アクリルペイントの始め方は?」「家のペイントでどのように使えるか?」といった基本的な探索を「Things to know」で示す。アクリルペインティングに関してGoogleは350以上の関連するトピックを確認しており、さらにアクリルペインティングについて人々が情報を収集する傾向を合わせて、ユーザーに目的の情報への道すじを示す。

何かを調べる時には深掘りしていくことがあれば、遠くから全体を見ることもある。それと同じようにトピックをズームインまたはズームアウトする候補を示す。「acrylic painting」という検索に対して、絞り込み(Refine)候補では「アクリルペイント・セット」や「アクリルペインティング・オンラインコース」など、拡大(Broaden)候補では「有名なペインター」「ペインティング・スタイル」などを提案する。Things to knowとRefine/Broadenは数カ月中にロールアウトする予定。

そして29日から英語版において、視覚的にひらめきを得られる結果ページを用意した。例えば、「pour painting ideas」という検索のように、ペイント手法のアイディアを得ようとしている検索は言葉だけではなく、キャンバスなどに絵の具を流す動画や画像があった方がよりインスピレーションを得られる。他にも「Halloween decorating ideas」や「indoor vertical garden ideas」などが対応している。

GoogleはAIシステムを用いて、バスケットボールのウィニングショットやレシピの手順など、動画の重要な瞬間を識別している。これをさらに一歩進め、関連トピックにMUMを活用する。Googleが例に示したマカロニペンギンの動画には「マカロニペンギンのライフストーリー」というよう言葉は出てこないが、マカロニペンギンの生態に興味を持つ人が視聴するような動画であり、動画と共にマカロニペンギンの家族作りや外敵といった関連情報のリンクを提供する。