Red Hat Asia PacificやTechnology Oneの支援を受けつつ、オーストラリアのQueensland University of Technology(クイーンズランド工科大学)に、オープンソースソフトウェアと仮想技術に関する研究所を立ち上げるなど、精力的に活動しているMicrosoftの研究機関「Microsoft Research」だが、同研究所は先頃発表したWindows Phoneの音声認識機能の向上に大きく寄与したという発表を行った。そこで今週はMicrosoft Researchが生み出した「DNN」について報告する。

Bing音声検索を改善するMicrosoft Researchの「DNN」とは

音声データを分析してキーワードを取り出し、そのまま検索を行う「音声検索」は、音声認識の一端として研究されてきた。Windows Vista以降は音声認識機能を標準搭載したものの、日本語の認識率はさほど向上せず、実用レベルに達したとは言い難い。その一方で最近ではスマートフォンの普及により、検索キーワードを音声入力する音声検索が目立つようになってきた。

先日行われた開発者向けカンファレンス「Google I/O 2013」でも、コンピューター上のWebブラウザで、音声検索および音声による回答機能のデモンストレーションが行われたのは記憶に新しい。また、iOSのSiriのように、事前言語処理を用いて質問への回答やWebサービスの利用といった機能が既に具現化されているのは、読者もご承知のとおりだ。

明らかに従来のテキストベースから音声ベースへと輪が広がる現状で、GoogleやAppleの後塵を拝するMicrosoftも、新たなアプローチを模索しているのをご存じだろうか。同社はスマートフォン向けOSであるWindows Phoneの音声認識機能を強化し、Bingに対する音声検索の速度を2倍程度向上させ、精度を15パーセント増したと自社ブログの一つ「BING BLOGS」の記事で発表した。

記事では「Microsoft Researchと緊密に協力し、DNN(Deep Neural Networks)と呼ばれる新たなアプローチで機能向上を実現した」と述べられている。もちろんWindows Phoneは日本国内で展開されておらず、音声認識も英語を対象としているため、この機能向上で我々が恩恵を受けることはない。だが、これらの音声認識が我々の生活を一変させる可能性をはらんでいるのは、紛(まぎ)れもない事実だ(図01~02)。

図01 Microsoftで音声技術グループのシニアプログラムマネージャーであるMichael Tjalve氏。同時にワシントン大学の助教授も務める(以下、動画より)

図02 音声認識速度の向上を紹介するデモンストレーション。よく見ると従来版では「What dinner」と最初のセンテンスを拾い損ねている

そこで、注目したいのが「Inside Microsoft Research」という同研究所の最新情報を掲載するブログだ。「DNN Research Improves Bing Voice Search」という記事では、前述したDNNに関する詳しい解説が行われている。

Microsoft Researchでは、Frank Seide(フランク・ザイード)氏やDong Yu(ドン・ユー)氏らが研究してきた音声認識技術を、Bingの音声検索と結びつける一つの答えをだした。それがDNNだという。そもそも同研究の最高調査責任者であるRick Rashid(リック・ラシッド)氏が昨年2012年10月に中国で行ったプレゼンテーション(そのときの記事はこちら)では、英語→中国語のリアルタイム音声翻訳をデモンストレーションしていた。

このデモンストレーションは、機械翻訳と音声合成、音声認識という3つの異なる技術を組み合わせたものだが、DNNはこの後半に当たり、University of Toronto(トロント大学)のGeoffrey Hinton(ジェフリー・ヒントン)氏の研究が基礎となっている。ちなみに同氏は"ニューラルネットワークの父"というニックネームを持つ研究者として有名。昨年発表された「Brains, Sex, and Machine Learning」はYouTubeでも視聴可能だ(図03)。

図03 Geoffrey Hinton氏の講演はYouTube上で視聴可能

Microsoft Researchの研究者たちは、発声パターンを示す数百万ものパラメーターをデータ化し、パターンに類似したものを検出する仕組みをDNNとして構築。ちょうど、我々人間の脳内にあるニューロン(神経細胞)が、情報処理と情報伝達に特化して動作するように、生体システムがパターンを認識するロジックを音声認識に取り込んだのがDNNである。

言葉にするのは簡単だが、実用レベルに達するまでには膨大な音声データを取得し、分析パターンを作り出すための長い道のりがあったという。前述のWindows Phoneによる音声検索は、Bingの大規模なインデックスデータとMicrosoft Researchの研究結果を結合することで、さらに良質な結果を生み出し、同記事でも「Bingの音声機能が人間の会話を認識する"方法"に近づいた」と述べている。

これらの成果がBing on Xboxやデスクトップ版Bingなど数多くのサービスに反映されるのは明らかだろう。キーボードやマウスといった旧態依然の入力デバイスから脱却できる日は遠くない。

阿久津良和(Cactus