何故、1回の操作で認識できるのか

Novaurisでは英国と米国、日本、韓国の駅名やレストラン名、住所、曲名など2億4,500万件のデータをコンピュータのデータベースに登録している。しかし、実はそのデータベースとコンピュータはスマートフォンのコンピュータには入っていない。

音声入力サービスを行うセンターのコンピュータ(サーバ)に入れており、音声パターン認識作業もそのコンピュータで行う。ここがポイントだ。スマートフォンは単純に音声をセンターのサーバに向けて飛ばすだけ。パターン認識処理はセンターのサーバが行う。音声を送信する場合に数10バイト/秒と低レートで飛ばすため電力はほとんど消費しない。コンピュータ処理が終わるとその結果をスマートフォンに返送する。結果だけを返送するため送信データは軽い。

音声認識は英語をベースにしているものの、翻訳機能も持っているため、日本語にも対応する。翻訳はスマートフォン側で処理するが、消費電力を下げるため翻訳処理もできるだけ軽くしたい。Novaurisでは、1,500種類の基本パターンに集約している。

例えば、「テレビが壊れている」という文章と「テレビジョンがいかれているようだ」という文章とは同じ意味だと解釈する。英語でも「The television doesn't work」も「The TV is broken」も同じ意味だと解釈する。このように集約することで計算処理を軽くする。スマートフォンに搭載するフラッシュメモリは100MBで、そのうちの7MB分だけを駅名や建物名、都市名に使っているとしている。

2月に話を聞いた時はこの技術は1~2社と共同で開発中ということで、ビジネスモデルとしては技術のライセンシングとロイヤルティの2本立て。パートナーと一緒に合弁企業を作るビジネスも可能だと、Hunt氏は日本企業との技術提携に高い関心を持っていると、日本企業との連携も期待したいとしていた。