ヤフーは2月4日、Android向けブラウザ「Yahoo!ブラウザー」で話し言葉による検索が可能になったと発表した。この機能はAndroidアプリ「Yahoo!音声アシスト」の"意味理解技術"を応用している。今回、開発者にYahoo!ブラウザーのその他アップデート内容と、音声アシストの技術詳細について話を伺った。

大量のログ精査で誤認識率を低減

Yahoo!音声アシストは2012年4月より提供を開始。話しかけると声で返答してくれる音声エージェントアプリといえば、米Appleの「Siri」や、NTTドコモの「しゃべってコンシェル」が思い浮かぶ。端末にプリインストールされている両アプリには及ばないものの、同アプリも総インストール数が約70万、ユーザーによる会話開始数(発話数)は3500万件に達する。

音声アシストの開発を担当したヤフー スマートデバイス戦略室 スマートデバイス開発本部 開発2部 企画の藤井 美晴氏は、音声エージェントアプリのメリットを「スマートデバイスはソフトウェアキーボードが基本で、画面が小さく文字入力が不便な側面がある。ユーザービリティを考えたとき、音声の方が便利」と語る。

ただ、音声入力の場合、音声認識が上手く行かない場合はかえってその"ユーザービリティ"を損ねてしまう結果になる。しかし、Yahoo! JAPAN研究所で開発している音声認識技術を2013年9月から採用。

「サービス開始当初はログも少なく、上手くこたえられない質問も少なくなかったのですが、ユーザーの方々が利用している大量のログがバックボーンとなり、『わかりません』とユーザーに返答している割合は6%程度までに低下しています」(藤井氏)

ログは精度向上に役立てているわけだが、その中でもこんな面白い話も。

「音声エージェントアプリではありませんが、Googleさんの音声検索CMに感化されて『日本のマチュピチュ』や『水圧で空を飛ぶ』といった音声検索を行なう方が結構いらっしゃいます(笑)」(同氏)

音声の認識では、タスク指向、非タスク指向の二つが存在し、タスク志向ではヤフーが持つサービス群への振り分け、例えば「東京から恵比寿への行き方」であれば、乗換検索を行なうといった返答を行なう。

東京の日本橋から大阪の日本橋といった判別も可能

その一方で、非タスク指向では雑談形式の会話が可能となっている。音声エージェントアプリの魅力でもある雑談だが、Yahoo!音声アシストでももちろん様々な回答を用意。細かいところに気配りが行なわれていて「疲れたんだけど」と話しかけると「今すぐ携帯の電源を切って、すぐ寝てください」とユーザーに就寝を促す。

意味理解の反応が良くても、ユーザーは実用的であるだけでは利用をしてくれない。「早口言葉を言って」というとかなりのスピードで話してくれる側面も。

「サービスとしてちゃんとユーザーの入力に対して応えられるようにと作り込んできたが、使ってもらう為の仕掛けとして、そういうちょっと面白い反応が入るようにしている。アプリを信用してもらわないと(アプリの利用という点で)入りづらくなるが、その信頼関係を築くという点で雑談ができるようにした」(同氏)

外部アプリながら、端末操作系の機能も充実しており、「カレンダーアプリなども起動することができます。カレンダーアプリといえば"ジョルテ"が有名ですが、ジョルテについても起動できます」(同氏)という。

話しかけてから応えるまでの流れとしては、ユーザーが発話すると、発話の波形データが音声認識サーバーへと送られ、テキストとしてスマートフォンに返答される。スマートフォンからそのテキストが応答生成サーバーに送られ、意味理解やサービス連携、音声合成を行なったのちに、応答文がかえってくる形だ。

音声アシストアプリのシステム概要図

パーソナルなデバイスであるスマホで、最適な応答を目指す音声アシストアプリ

意味理解のエンジンは1カ月半~2カ月のペースでアップデートされており、日々精度向上につとめている。そして、サーバー側で意味理解を処理しているからこそ、今回のYahoo!ブラウザーへの搭載が容易になったわけだ。

Yahoo!ブラウザーは人気No.1ブラウザ

Yahoo!ブラウザーはGoogle Playのブラウザカテゴリー人気No.1アプリで130万ダウンロードを誇る。「Yahoo!なんだし、それぐらい当然なのでは」と思われるかもしれないが、同開発本部 開発3部で開発を行なっている津田 輝喜氏は「ブラウザーは競争が激しく、特に中国系のブラウザが機能面でも目を見張るものがある」と語る。

そういった競合との差別化を図る上でも「話し言葉による検索」がキーポイントになりそうだが、ブラウザ上でできることは限られそうな印象を受ける。その点を尋ねると「会話こそできませんが、端末内の情報、例えば今日のスケジュールや連絡先情報なども引き出すことができます」(津田氏)。

ほかにも通常であれば「近くの郵便局はどこ」と検索すると、そのままの文字列で検索結果が表示されるが、利用者の意図をくみ取って現在位置情報から実際に"近くの"郵便局を表示してくれる。

Amazonアプリも起動できる。連絡先情報については電話番号にも直接アクセス可能

ヤフーでは、スマートデバイス時代において音声が重要になるという認識を示しており「音声認識技術を育てていきたいという思いで、音声エージェントアプリの一部機能をブラウザに統合した」(津田氏)という。

「音声認識の精度を上げるためにはログが重要ということもあるが、ユーザーが求める情報に応えたいという思いもある。ブラウザ自体の利用者を伸ばしていくとともに、利用の幅を拡げていきたい」(同氏)

様々な利用シーンに対応する

将来的にはYahoo! JAPANアプリにも意味理解技術を入れたいという藤井氏と津田氏だが、こういったアプリ間の機能移植はほかにもある。

「ブラウジングをしていると、キャッシュが溜まっていきメモリ容量を食って端末が重くなってしまう。Yahoo! JAPANアプリにも搭載された"メモリ最適化機能"をYahoo!ブラウザにも搭載し、普通であれば重くなっていくところをサクサクしていく」(津田氏)

デフォルトのブラウザやGoogleのChromeを利用しがちなAndroid端末だが、このような付加価値を提供するブラウザを入れることで、新たなユーザー体験を感じ取ってみるのはいかがだろうか。