教えてカナコさん! これならわかるAI入門(31) なぜスマートスピーカーは流行らないのか?

皆さんは、スマートスピーカー（AIスピーカー）をお持ちですか？私は持っています。

「Amazon Echo」「Google Home」「Line Clova」など、日本でもさまざまなスマートスピーカーが発売されています。このスマートスピーカーに関して、デロイトトーマツコンサルティングは昨年12月、世界35カ国／地域を対象に実施した「世界モバイル利用動向調査2018」の結果を発表しました。それによると、日本におけるスマートスピーカーの普及率は3％だと言います。

私の周囲だけ見渡すと普及率80％くらいの肌感覚だったので、日本全体でたったの3％ということに衝撃を受けました。英国やカナダでも10％程度です。もちろん、国によってはそれなりに普及しているところもあり、例えば中国のスマートスピーカー普及率は22％と2割を超えています。しかし、それでも8割近くはスマートスピーカーを保有していないのです。

なぜスマートスピーカーは普及しないのでしょうか。

今回は、1人のスマートスピーカー保有者かつ対話AI研究者という視点で、なぜスマートスピーカーがいまいち流行らないのかを考えてみました。

スマートスピーカーが流行らない「3つの理由」

私が思う”スマートスピーカーが流行らない理由”は、次の3つです。

できることが少ない
自然な話し言葉で操作ができない
人間からスピーカーに話しかけなければならない

以降では、それぞれについて順にお話したいと思います。

できることが少ない

「スマートスピーカー」という名前から、一体どんなすごいことができるのだろうと期待に胸が膨らむ方も多いでしょう。スマートスピーカーはその高い期待に、果たして応えられているのでしょうか。

スマートスピーカーが実装しているのは、紛れもなく「タスク指向対話^※」です。タスク指向対話とは、ある目的（タスク）を達成するためにする会話で、例えば「天気を知りたい」「メールを書きたい」といった入力を想定しています。

達成可能な目的（タスク）はあらかじめ設定する必要があるため、スマートスピーカーは各々実行できる処理を設定されています。例えば、「音楽をかける」「天気を調べる」「タイマーをセットする」といったことです。どんなタスクが実行できればスマートスピーカーとして満足できるかは人にもよりますが、”一般人がAIに期待する内容”がスマートスピーカーにできているのかは疑問が残るところです。

「天気を教えて」には答えられても「いい天気だね」には答えられない

私の友人たちだけをサンプルとするならば、スマートスピーカーを常用している人のほとんどが、それをキッチンタイマーとしてのみ活用しています。キッチンでは手が濡れているケースが多いため、音声操作との相性は非常に良く、使い方としては納得がいきます。とは言え、声でキッチンタイマーを操作するためだけにスマートスピーカーを買う人はそういないでしょう。

そう考えると、やはりスマートスピーカーはまだ（期待されているよりも）できることが少なく、だからこそ利用も浸透しないのだと考えられます。

スマートスピーカーは”役に立つ”ことを目指していますから、タスク指向対話の路線で開発が進められているのは当然です。ただし、本当に限られたタスクをこなしているだけでは、「役に立たない」と思われた瞬間、必要ないものになってしまいます。

「人の役に立つこと」とは、人の目的達成を助けることだけではありません。何気ない雑談の相手をしたり、愚痴を聞いたりすることも、十分人のためになるはずです。近い将来、雑談ができるスマートスピーカーが登場することを切に願います。

※　タスク指向対話についての詳細は、本連載の第15回「チャットボットってなあに?」をご参照ください。

自然な話し言葉で操作ができない

スマートスピーカーの最大の特徴は言葉（音声）で指示ができることでしょう。本当に自然な話し言葉で操作をできるのであれば、前述のように操作できる内容が少なかったとしても、それなりに便利そうです。しかし、この最大の特徴である「言葉による操作」が、スマートスピーカーを使わなくなる理由の1つになってしまっているのが実情です。

例えば、音楽をかけたいときには必ず「音楽をかけて」とスマートスピーカーに話しかける人は問題ありません。しかし、音楽を聴きたいときに自然と口をついて出る言葉は、いつも「音楽をかけて」でしょうか。「音がないと寂しいなー」とか「今日は嫌なことがあったから、ちょっとロックな曲でも聴こうかな」とか、状況や気分、性格などさまざまな要因でその発言内容は変わるはずです。

残念ながら、現在のスマートスピーカーには、そういった自然な言葉の意図を理解できる力はありません。もちろん多少の言葉の揺らぎや言い回しには対応していますが、あくまでそれは「音楽をかけて」と意味が同じかどうかを判定しているに過ぎません。「音楽がないと寂しいなー」という言葉を聞いて、それなら元気が出る曲をかけてあげよう、などという気の利いたことはできないわけです。

スマートスピーカーに理解できる言葉はある程度決まっている

ありていに言えば、今私たちはスマートスピーカーを使うために、スマートスピーカーを操作するための言葉（呪文）を覚えて、それを唱えているに過ぎないのです。説明書を読まなければ操作ができないものは、本当にスマートなのでしょうか。

スマートスピーカーの普及が進まないのは、”スマート”と言いつつも、人がこうした事実に気づいているからかもしれません。

人間からスピーカーに話しかけなければならない

スマートスピーカーは、基本的に人間から話しかけられることを想定しています。「明日の天気は?」と尋ねれば、スマートスピーカーは適切に明日の天気予報を答えるでしょう。しかし、スマートスピーカーから積極的に明日の天気を教えてくれることはありません。

「話しかける」という行為は、思った以上に疲れるものです。ましてや、相手はスマートスピーカーです。前述のように、認識できる言葉もある程度決まっています。つまり、「どんな機能があったっけ」「これをやってほしいときは何て話しかけたら良いんだろう」と考えることが多く、話しかけるまでに越えなければならないハードルが非常に高いのです。その上、せっかく話しかけたのに音声認識に失敗し、「明日の天気は?」と何度も言い直す羽目になれば、もうスマートスピーカーを使う気も失せるでしょう。

簡単／便利なはずのスマートスピーカーなのに、気楽に使えないのでは本末転倒です。流行るはずもありません。

私としては、「スマートスピーカーは、もっとスマートスピーカー自身から話しかけてほしい」と思っています。「明日はお出かけですか?」なんて話しかけてくれれば、私はきっと「うん、そうだよ」と答えるでしょう。そこで、それなら天気が知りたいだろうな、と考えて「明日は晴れるみたいですよ。楽しんできてください」などと言ってくれれば、スマートスピーカーを抱きしめてしまいそうです。

もちろん、このようなやり取りをスマートスピーカー自身が本質的に意味を理解した上で実現することは、まだ今の技術では難しいでしょう。最初はシナリオベースでも良いと思います。とにかく、人が頑張って話しかけなくても良い、そんなスマートスピーカーが現れることを期待しています。

残念ながら、AIから話しかけるのはまだ難しい

*　*　*

まだまだ課題の多いスマートスピーカーですが、それでもあの価格帯で、あれだけの機能を実現していることが画期的であることは確かです。また、日本での普及率は3％程度だとは言え、実際に使われているということは製品を改善していく上で非常に重要なことです。利用者の声を基に、今後さらなる機能の追加／改善が行われていけば、”スマートスピーカーを持っているのは当たり前”になる日もそう遠くないかもしれません。

今回はちょっと辛口でしたが、スマートスピーカーへの大きな期待を込めて。

著者紹介

株式会社NTTドコモ
R&Dイノベーション本部　サービスイノベーション部
大西可奈子

2012年お茶の水女子大学大学院博士後期課程修了。博士(理学)。同年、NTTドコモに入社。2016年から国立研究開発法人情報通信研究機構研究員(出向)。2018年より現職。一貫して自然言語処理、特に対話に関する研究開発に従事。人工知能(主に対話技術)に関する講演や記事執筆も行う。
著書に『いちばんやさしいAI〈人工知能〉超入門』(マイナビ出版)。
公式サイト：「AI研究家大西可奈子のお仕事情報」
twitter：@WHotChocolate