山田祥平のニュース羅針盤(548) 新たにGeminiが中の人になった「Google Homeスピーカー」を試してみた

Google Homeスピーカーが発売された。すでに発売が開始され、店頭やECサイトでの購入ができるようになっている。価格は16,800円だ。

この製品は早い話がGoogleのAIであるGeminiを中核に据えたAI対応のスマートスピーカーだ。これまでOK Googleで呼び出して使ってきた従来製品のGoogleアシスタントに比べて、どのくらい賢くなっているのだろうかと期待も高まる。試させてもらうことができたので、ファーストインプレッションをお伝えしたい。

発売されたばかりの「Google Homeスピーカー」を試用してみた

パッケージに同梱されているのは本体と30WのUSB PD PPS対応のACアダプタだ。本体には、1.5メートルのUSBケーブルが直づけされ、それをアダプタに接続して使う。ケーブルの取り外しや交換はできないし、USB-CによるPower Deliveryの規格的に延長もできない。

本体に電源スイッチ的なものはなく、スライドスイッチがついていて、マイクを明示的にミュートできるようになっているくらいだ。そのほかボリューム調整と再生中の音楽等の一時停止等は、スピーカー上部のタッチでも対応する。

セットアップには、Google Homeアプリを使う。電源を入れてデバイスの追加をスタートすると、本体裏のQRコードを読み取るように指示されるので、カメラで読むと以降の設定を進めていくことができる。その過程で10種類の音声バリエーションから好みのものを選ぶことができる。

もちろん、Google Homeを使う以上、オーナーのGoogleアカウントとの紐付けが必要だ。オーナーが紐付けたアカウントの個人情報を誰にでも開示するわけではなく、Voice Matchの仕組みを使い、話者の声を識別して個々のユーザーのアカウント情報に応じたやりとりをするようになっている。だからオーナーが自分のアカウントと紐付けたスピーカーを家庭のリビングルームなどに設置しても、自分自身と家族は明確に区別され、オーナー自身のプライベートな情報を家族にも提供するといったことはない。

スピーカーとの対話は、従来通りの対話モードと、Liveモードに対応する。OK Googleなどのウェイクワードでスピーカーを起こし、質問したり、何かを頼んだりすれば、従来通りのスマートスピーカーとして機能するし、「話そう」「チャットしよう」といった言葉でライブモードに入り、以降はウェイクワードを使わずに、人間相手にしゃべっているように会話を続けることができる。

Google Homeスピーカーは、「Gemini for Home」という、自然言語理解と推論能力を備えた、新しい音声アシスタントを搭載している

ただ、複雑な質問に対応できるようになったぶん、推論処理の高度化とクラウド依存の強まりもあって、忘れた頃に回答が戻ってくるというのは大げさだが、テンポのいい会話は望めない。待たされ感は覚悟し、のんびり構える悠長な態度が求められる。

以前のGoogleアシスタントを使い、目覚ましやカップ麺を作るときのタイマーくらいにしか役にたたないと思った人は少なくないかもしれない。それだけでも本当はとても便利なのだが、今回はGeminiが中の人として機能するときけば、期待しないわけにはいかない。

Googleが最後にスマートスピーカーを発売したのはNest Audioで、すでに6年も前のことだが、今回のスピーカーを皮切りに、今後はNest Camなどのスマートカメラなど、Geminiを中心に据えたスマートホームデバイスの新製品が続いて発売されることになっている。家の中に対応スマートデバイスがたくさんあればあるほど、それらを体系的にコントロールできるAIの存在は頼もしく感じられるようになるだろう。

ちなみにGemini Live、AIによる通知、一日の要約、動画履歴の検索、「Home に相談」によるオートメーション作成などの高度な機能を使うには1,000円/月のサブスクリプションGoogle Home Premium Standard以上が必要だ。ただし、スピーカーの購入者は半年間無料で使えるし、Google AI Pro以上を契約していれば、それにも権利が含まれる。

使い勝手はどうかというと、音声を使ってスマホのGeminiを使ってきたなら、特に新鮮味はないともいえる。でも、いつでも使えるGeminiが部屋の中にあって、今までよりも高度なことを頼んでも対応してくれるというのは心強い。

何かを聞けば、それについて逐次的に答える応答は、これまでもお馴染みのチャットコミュニケーションだが、それも、かなり複雑な要求に応えることができるようになった。また、回答されたあとも数秒間はマイクが生きているので、ウェイクワードなしに次の質問を続けることができる。

それをもっと拡張したのがLiveモードだ。話そう、とか、チャットしよう、などのワードをトリガーにしてこのモードに入ると、まるで友だちと話すように気軽な会話ができる。スマホのGeminiでカメラ映像でのLIVEチャットを使うほど現場の環境を共有できるわけではないが、音声だけでの会話でも、今夜の夕食の献立や、これから作るおやつの材料をGoogle Keepの買い物リストに追加するなど、今の課題について考えるときの壁打ち相手にはなってくれる。

まさに「まるで友だちと話すように気軽な会話ができる」

ただ、自分が思っていることを音声だけで伝えるのはなかなかたいへんだ。言葉足らずになりがちで、それを誤解され、とんでもない回答につながることは日常茶飯事だ。そういう意味ではきちんと文字で質問をまとめ、推敲して加筆修正し、誤解のないような文章にしてからエンターキーでAIに送るという一連の作業をやってのける人間というのはすごいと思う。文字を使ったチャットなら誤解も少なくなるから文字によるチャットではAIがちょっとだけ賢いようにも感じる。そして、AIとの付き合い方において、自分の知りたいことややりたいことを言語化することの難しさを痛感する。曖昧な言い方をしたとしても、その真意を推測してくれるところまでいきつくには、あと少し時間もかかりそうだ。