「先日いただいたべったら漬け、あなたの温もりがこもっていた、あなたの愛がこもっていた、まる」。この文言ではじまるSMAPの香取慎吾氏を起用したCMが公開されたのが今から16年前となる1998年。これはいったい何かというと、IBMのデスクトップPC「Aptiva」を用いて、音声入力ソフト「ViaVoice」でメールを作成している様子をCMとしたものだ。30代以上の読者の方には、頭の片隅にそんなものがあったなぁ、という記憶をお持ちのかたもいると思う。

しかし、その当時、音声入力はそれなりの盛り上がりを見せたものの、その後、長い間、研究開発は継続されていたものの、あまり陽の当たる場所で話題に上ることはなかった。だが、時代は移りAppleが2011年に音声入力アプリ「Siri」をiOSに搭載したことで、再び音声入力が脚光を浴びるようになった。そして、MicrosoftもSiriに対抗し、Windows8.1向け音声アシスタント「Cortana」を4月頭に開催した開発者向けイベント「Build 2014」にて発表するなど、音声入力への注目は長い時を経て、再び高まってきた。

そうした音声入力技術を長年にわたって研究開発し、製品をソリューションとして提供してきた企業がNuance Communicationsだ。同社は1992年にXeroxから分離・独立して以降、画像認識技術や音声認識技術の研究・開発を行ってきており、これまでにさまざまな音声認識技術の企業の買収なども行っており、冒頭のIBMのCMで話題になったViaVoiceもIBMより譲り受け、その技術を製品に応用している。

そんな同社が2014年3月に、自動車分野に向けた取り組みなどの説明を行ったので、その内容を元に、音声認識技術の現状をお伝えしたい。

ちなみに自動車向け音声認識技術はAppleが「CarPlay」をジュネーブ・モーターショーで発表するなど、現在、音声認識分野では注目が集まっている領域の1つだ。しかし、実際はすでに多くのラグジュアリークラスの自動車などでカーナビゲーションなどのシステムを音声で操作するソリューションが用いられている。

同社も多くの自動車メーカーに対し、そうしたソリューションを提供しており、日本でも対応したシステムを搭載した車種が販売されている。しかし、同社のMarketing Director,Automotive Business UnitのFatima Vital氏は、「さまざまなデバイスが車内でつながるようになり、ドライバーは運転をしながら、それらを安全に操作することが求められるようになっている。多くの情報をどうやって安全に活用するのか、といった問題はすでに米国では大きな問題となっており、10代を中心にデバイスの操作に気を取られて事故を起こすといった事例が増えており、政府機関も"Distracted Driving"という標語を掲げ、そうした運転を止めようという呼びかけを行ったりしている」と、現在の自動車が置かれている状況を説明。そうした問題の解決策の1つとして、音声認識技術の活用に期待が集まっているとした。

運転中のスマートフォンなどの操作による事故が10代を中心に増加傾向にあり、その抑止に向けた取り組みを米国では進めている

現在、同社は自動車のOEMメーカーやティア1メーカーに対し「DRAGON Drive」というソリューションを提供している。また、そのほかに同じプラットフォーム上のソリューションとして携帯機器向けの「Dragon Mobile」、テレビなどの組込機器向けの「DRAGON TV」、そしてPC向けの「DRAGON Desktop」などを提供しており、それらをクラウドでつなげる取り組みを進めている(同社は製品の名称に「DRAGON」を付けるのが基本となっている)。

自動車のエレクトロニクス化やスマートフォンの普及などを背景に車載IT機器に対するニーズは多様化している。とはいえ、それらをすべてタッチパネルやつまみで対応していると、前述のような事故の元になりかねない、ということで、音声認識でそうした機能の管理を行おうというのが同社のソリューションとなる

DRAGON Driveの仕組み(左)と、同一アーキテクチャを横展開し、それをクラウドでつなげるという同社のプラットフォーム戦略(右)

携帯機器、組込機器、PC、そして自動車が1つの「DRAGON」でつながると何が起こるのか。すべてのコンテンツが1つの音声認識プラットフォームで常時つながるということは、その音声を発する対象者が、どんなコンテンツをどの程度活用しているのか、といったことが分かるようになるほか、ユーザー側としても、例えば、リビングに居ながら、今日のスケジュール情報や行先の情報をDRAGONに指示し自動車に送っておいたり、DRAGON側からユーザーの嗜好に応じて、こういった好みにマッチする番組が今夜放映されるが、録画しておくかと質問をしたりするといった、あたかも自律した思考を持つAIを持った秘書のような存在がデジタル上に存在することとなる。

同社の言語理解のフレームワークと、対応言語の一覧。この他、提供企業によっては、方言への対応などもあるという

1980年代や1990年代に自動車に搭載された人工知能が人の言葉を理解し、ドライバーと意思疎通をし、さまざまな問題を解決していくドラマやアニメなどがあったが、同社が実現しようとする将来像は、そうしたSFの世界をも超すものとなっている。

また、ビームフォーミング技術なども研究しており、特定の話者だけの発言に注目して音声を拾うことも可能であり、カメラと連動することで移動している話者を認識しつつ、その音声のみを拾う、といったことも可能になるとのことで、そうなれば、乗用車で、運転席、助手席、後部座席のそれぞれに座っている人間が別々に話をしたとしても、誰が何を話しているかを並行処理し、それぞれの問いなどに対して適切な回答を発するといったこともできるようになることも考えられる。

現在、自動車はエレクトロニクス化が進んでおり、その流れは燃費向上、環境考慮、安全性向上といったことの実現に向け、加速していく方向にある。そうなると、もはや機械ではなく、走る家電という存在になる。音声認識で番組を変えたりできるテレビはすでに発売済みであり、一般的な家電、自動車、PC、そしてスマートフォン、一見すると別々の存在のように見えるが、音声認識という線上ではつながるデバイス群である。半導体デバイスの性能向上は、プロセスの微細化の限界が見えてきてはいるものの、今後数年はまだムーアの法則に従って実現できることが予想されるほか、無線通信規格の高速化も着実に進んでいくことから、近い将来、同社の未来予想図が現実のものとなる可能性は高いと言えるだろう。

日本向けカーナビにも同社の技術が搭載されている。操作画面を出すところから、ナビゲーションの選択、住所を入力するところまですべて言葉で入力することができる