スマートフォンなどが備える音声インタフェースを使っているだろうか? 若い世代はためらうことなく使っているものの、私と同世代以上だと毛嫌いする人も多い。筆者の周りで音声の活用に積極的な人は決して多くはない。しかし、Kleiner Perkins Caufield Byers(KPCB)が公開した「2016 インターネット・トレンド・レポート」によると、音声がコンピューティング・インタフェースとして使われるようになるパラダイムシフトはすでに起き始めている。

現在、米国において音声インタフェースの進化をけん引しているのはAmazonとGoogleだ。米国ではiPhoneの登場やGoogleの音声検索の開始をきっかけに2008年頃から一般の人たちが音声を使い始めたが、下のデータが示すように今日、音声はスマートフォンよりもホーム家電で、その便利さが認められている。

米国人ユーザーが音声を使う主な理由(左)と、主に音声を使う環境(右)。場所は「自宅」が43%でトップ、そして36%の「車」である。スマートフォンで使用する「外出時」は19%と少ない(出典: KPCB 2016 Internet Trend Report)

人々が音声を使う理由で最も多いのが「手や視界がふさがっている時に便利」(61%)、2位の「素早く結果が得られる」(30%)を大きく引き離している。その音声の便利さを上手く引き出してヒットしているのがAmazonのスピーカー型の音声デジタルアシスタント「Echo」である。感度のよいマイクを搭載し、部屋の中で「Hey Alexa」と呼びかけるだけで、すぐに反応する。ホームボタンにも何にも触れる必要はない。「音楽をかけて」「明日の天気は?」「(Amazonで)トイレットペーパーを再注文」など、話しかけるだけで様々なアシスタントに応じてくれる。

Bluetoothスピーカーに音声デジタルアシスタントを統合、据え置き型デジタルアシスタントという新ジャンルを開拓したAmazonの「Echo」

AmazonはEchoの販売台数を公表していないが、KPCBは2016年第1四半期の販売台数を100万台以上と推測している。ホットな商品と呼ぶほどではないと思うかもしれないが、2015年を通して四半期ごとに販売台数を伸ばしており、その勢いのまま昨年の年末商戦(2015年第4四半期)を、通常なら季節的に落ち込む今年第1四半期が上回った。しかも、この間AmazonはEchoの値引きをほとんど行っていない。Echoの発売は2014年11月であり、すでに1年半以上が経過しているが、ここに来て販売台数の伸びを加速させているのは、音声やAIに関心を持ち始めた人の増加と無関係ではないだろう。KPCBによると、米国のAmazonユーザーの5%がEchoを所有し、61%がEchoを意識している。Amazonのサービスに密接に結びついたデバイスであるが、Echoをサポートするサードパーティが増えているのも追い風になっている。

音声認識精度は90%を超えたけど

一方、Googleは土台である音声認識で地道にユーザーの要望に応えてきた。下のグラフは、米国のスマートフォンユーザーの中で音声アシスタントを使用しているユーザーの比率だ。2014年に大きく伸びて2015年に65%に達した。

米国ではスマートフォンの欠かせない機能になっている音声アシスタント(出典: KPCB 2016 Internet Trend Report)

倍増近く増えた2014年に、Googleはより自然に音声コマンドを利用できるようにした。たとえば、家族なら名前を言わなくても「Call Mom」で電話をかけられる。他にも「Navigate home」など、シンプルで実用的な音声コマンドによって音声を使う人が増加した。

Google Trendsのデータによると、音声コマンドのクエリ数は2008年から35倍以上、2010年から7倍以上に増加した。グラフは青線が「Call Mom」、赤線が「Navigate home」(出典: KPCB 2016 Internet Trend Report)

Googleによると、1970年頃の音声認識の精度は10%程度だった。それが2010年には70%に成長し、2016年には90%に到達した。振り返ってみると、2010年頃は音声検索を試みてもちゃんと認識してもらえずにキーボードを使うことが多かった。90%を超える今は、はっきり話しかけるとかなり正確に聞き取ってもらえる。

しかし、Baidu ResearchのチーフサイエンティストであるAndrew Ng氏は、それでも普及には不十分だと指摘する。「スピーチの認識精度が95%から99%に上がったら、これまでめったに使わなかった人も常に使うようになるだろう。多くの人は95%と99%の精度の違いを軽んじているが、99%がゲームチェンジャーなのだ」(Ng氏)

一昔前に比べると便利で役立つものになったとはいえ、音声はまだユーザーに努力と我慢を強いているのが現状である。その負担を感じなくなるのは95%を超えてからであり、99%に達して自然なインタラクションが実現する。わずか4%だが、最後の4%に挑むこれからの数年が私たちの生活に劇的な変化を及ぼす。