高速に音声認識を実現する技術

だが筆者は、Nuanceの技術よりもさらに簡単に高速に音声を認識できる技術の話を、2009年の2月下旬に英国ブリストルのレストランで聞いた。このベンチャー企業の音声認識技術は英語だけではなく、日本語と韓国語にも対応している。Nuanceの技術の詳細は不明だが、まだ8名しかいないベンチャー企業「Novauris Technologies」の技術はNuanceの一歩先をゆくと思えた。創業者の一人、Melvyn J Hunt博士は英国中西部のチェルテンハム(Cheltenham)という街から60km離れたブリストルまで会いに来てくれた。

スマートフォンに向かって音声を入力するHunt博士(左)とその様子を確認する筆者

Novaurisが試作したスマートフォンでは、「駅探」のような機能と音楽機能について音声認識で動作する。"駅探"機能では、「東京から新橋まで」と言えば交通ルートをGPSの地図で示してくれる。またレストランの名前を言えば、その住所を地図上で示してくれる。音楽機能では、「ビートルズのLet It Be」といえば、その曲を流してくれる。

Novaurisが試作したスマートフォン開発キットの画面(日本語にもきちんと対応している)

しかもその入力の仕方がきわめて簡単で、1回の入力で済む。これまでの入力なら、例えば住所を入力する場合、「州を言ってください」と聞かれてから「カリフォルニア州」、次に「市を言ってください」に対して「サニーベール」と答え、「通りを言ってください」に対して「ノースウォルフ通り」と答え、「通りの番号を言ってください」に対して「440」と答えるとようやく場所を指示する。これに対して、同社の技術では1回で済む。「通りの住所を言ってください」と聞かれて「カリフォルニア州サニーベール、ノースウォルフ通り、440」だけでよい(下の図参照)。

左がNovaurisの音声認識の手順で、右が既存の音声認識の手順

また、従来の音声認識ソフトの代表的な例としてNuanceの製品と比較した表が下の表である。

NovaurisとNuanceの製品比較(左がNuance、右がNovauris)