特定の言葉にしか反応しないスマートスピーカー

「日本だけ別の言葉になることに何の問題があるのか」と思われるかもしれない。しかし、ことはもう少し複雑だ。そもそも、現在の音声アシスタントやスマートスピーカーに「AI」とつけることは、ほんとうに正しいのだろうか? 筆者にはそこに大きな疑問がある。

確かに、スマートスピーカーに使われている音声アシスタントは、過去に比べ非常に高い精度で音声を聞き取ってくれるようになった。もちろん完璧ではないが、5年前や10年前には望むべくもなかった精度のものが、スマートフォンやスマートスピーカー、テレビなど多数の機器で当たり前のように使われている。音声合成の品質も上がり、かなり自然な応答をしてくれるようになった。

だが、「音声を認識してくれること」「音声合成で応答してくれること」は、AIとイコールではない。いまの「AI」は非常に曖昧で広い意味に使われており、こうした機能をAIのように扱うこともあるが、実際にはちょっと違う。

現状スマートスピーカーが搭載しているのは、あくまで「認識」や「合成」の技術であり、それは知性の手前にあるものだ。AIと呼ばれる技術と地続きのものではあるのだが、「話し言葉を文章に変換する」ことが「インテリジェンス」なのかと言われると、「ノー」と言わざるを得ない。

現状の音声アシスタントは、音声から認識した言葉の中のキーワードに反応して動いているようなところがある。だから、語尾が変わっただけで反応できないこともあるし、人間ならば文脈を読んで対応してくれそうなところで、妙に厳格だったりする。

特に、Amazonの音声アシスタントであるAlexaでは「Skill」、Googleアシスタントでは「Actions on Google」と呼ばれる外部サービスの扱いを見れば、その正体がよくわかる。

Alexaでは「Skill」で外部サービスと連携する

Skillの場合には、例えば「Alexa、<Skillが定めたキーワード>を開いて」と言うことで、特定のSkillを呼び出す。「開いて」という言葉で外部サービスにデータを渡すことを確定させた上で、特定のキーワードや名前をサービスに渡し、処理してもらう形になっているわけだ。これはActions on Googleでも同じで、「ねぇGoogle、<Actionが定めたキーワード>と話す」ということで、外部サービスを呼び出す手順になっている。

Alexaに呼びかける際の例

この流れは、ウェブサービスにキーワードを入れたり、特定の選択肢を選んだりした時と近い。もっと言えば、MS-DOSやUnixのコマンドラインの考え方にも似ている。それを自然な音声で行えるようになったのは進歩だし、外部サービスとうまく連携する市場が形作られていくことには、大きな可能性があると思う。

だが現状、結局は「Skillを呼び出す書式」を覚え、なにができるかを記憶しておく必要があるわけでは、それはやはり「知的」な反応とはとてもいえない。

AmazonやGoogleは決して「AI」と呼ばない

筆者はアメリカでEchoを購入し、登録しているが、Amazonから毎週「Echoでこれをやってみよう」という内容を知らせるメールが届く。スマートスピーカー先進国であるアメリカですら、「スマートスピーカーになにを話すとなにをやってくれるか」を周知する必要がある段階で、人間の話した言葉に自由に対応できる状況にはない。

そのためか、AmazonもGoogleも、「AI」という言葉の使い方にはかなり慎重になっているようだ。その証拠に、AmazonもGoogleも、EchoやGoogle Homeのプレスリリースの中で、一度として「AI」という言葉を使っていない。すなわち、スマートスピーカーを構成する要素は「まだAIではない」と考えているのだ。

それに対しLINEは、音声アシスタントである「Clova」をはっきり「AIアシスタント」と呼んでいる。10月5日の製品発表時は「スマートスピーカー」だったが、2週間後にCMを告知するリリースでは「AIスピーカー」に変わっている。呼び方の判断は各社それぞれだが、音声認識への反応精度で他社に遅れをとっている状況で1社だけ「AI」を連呼するのは、少々バランスが悪いのでは……と筆者は考える。

LINEは自社のスマートスピーカー「Clova WAVE」を、10月後半以降「AIスピーカー」と呼び始めている

現状のスマートスピーカーはまだ「インテリジェント」ではない

現状、スマートスピーカーの能力を決めるのは、プラットフォーマーが仕込んだ機能の多彩さや、パートナーと組んで作った特別な機能の使い勝手の良さではないかと思っている。

そうした部分は、エンジニアやサービス企画者が知恵を絞って「仕込む」部分であり、機械が臨機応変に判断して対応しているわけではない。そこで得られる結果は「スマート(便利)」なものではあっても、「インテリジェント(知的)」なものではない。

筆者が「スマートスピーカー」を「AIスピーカー」と呼ぶべきではない、と考えるのは、結局この点に尽きる。

音声アシスタントは、今後どんどん進化する。音声認識や音声合成の精度が進化するのはもちろんのこと、認識後に「利用者がなにを望んでいるのか」を理解するための、語彙解釈や文脈解釈の能力も同様に向上していくはずである。

進化を続けていった先に、きちんと文章の中身を解釈し、言い回しや語順が異なったり、一部に「あれ」のような代名詞を含んだあいまいな言い回しがあったとしても、人間のように解釈できる音声アシスタントの時代がやってくるだろう。

外部サービスに情報を渡す時にも、特定のやり方で伝えるのではなく、ごく自然に話せば「では、○○におつなぎしますね」という形でサービス連携ができる時代がやってくる。当然各社は、そうなる未来を思い描いている。

「本当のAIの時代」まで言葉はとっておこう

これからのユーザーインタフェースは、「ソフトやサービス側がユーザーのやりたいことを理解して、操作の手数を減らす」形のものが主流になる。機器は変わったが、我々は毎日同じアプリを開き、同じ操作をし、同じ場所をタップしている。そうした操作は、学習によってソフトウエアが学んでいくことで、ある程度自動化できるはずだ。

音声アシスタントは、そうした自動化の中にあるトレンドであり、「画面のタップやマウスのクリックの代わりに、音声である程度の作業をしてもらうこと」と定義することができる。

本当に音声アシスタントが多用される時代がきたり、ディスプレイがVR空間に描かれる時代が来るならば、そこでは「ユーザーがなにをしたいのか」「なにをしてくれるとありがたいのか」を把握して動く必要がある。

大量の曖昧なデータから自分に必要なものを抽出して適切な処理を行う必要もある。それがまさに「AI」の仕事であり、現在の音声認識・画像認識の先にあるものだ。

音声アシスタントを「AI」と呼び、スマートスピーカーを「AIスピーカー」と呼ぶのは、そういう「認識を超えた判断」、別の言い方をすれば「ユーザーの空気を読むインタフェース」の時代が来た時で十分なのではないか。

音声アシスタントやスマートスピーカーについては、日本語よりも研究開発が進んだ英語を軸にした市場ですら「期待外れ」「賢くない」との批判がある。非常に複雑な要素が絡み、事例の蓄積もまだ少ない日本語ではなおさらだろう。AIという言葉に期待した人々が幻滅し、製品の可能性を毀損してしまうのではないか……。そんな風に思う。

勝手に言葉を作って勝手に期待し、本来生まれる可能性のある市場をスポイルした上に、「AI」という言葉を摩耗させてしまうことや、将来に大きな禍根を残すことは、なんとしても避けたいと思うのだ。

Google アシスタント対応の「Google Home」シリーズ

LINEのClova対応「WAVE」