突然だが、いま「音声認識」が米国で密かなブームとなっている。PCの性能向上とともにアプリケーションのダウンサイジングが進み、各社独自のエンジンを搭載したコンシューマ向け音声認識ソフトウェアがブームになったのは今から10年ほど前。キーボードのいらない補助入力システムとして売り出されてはみたものの、思ったより低い認識精度、それを向上させるための面倒なエンロール(学習)作業など、まだまだ未成熟の技術であることを思い知るだけだった。そして10年、いま再び登場した音声認識技術は活躍の舞台を携帯電話へと移し、UIに制約が多い中での補助入力デバイスとして使われ始めている。

ハンズフリーを目指した、Tellmeの音声検索サービス

米カリフォルニア州サンフランシスコで開催されたWeb 2.0 Expo。ここで4月23日(現地時間)に基調講演を行なった米Tellme Networksのコンシューマサービスビジネス部門シニアディレクター Dariusz Paczuski氏は、車などからの出先での携帯サービスの利用意向が高いことを紹介した。これは音声ガイド経由で情報検索サービスを提供している同社の調査結果をまとめたものだが、実際に車上からサービスが利用されるケースが多いと同時に、ユーザーが運転中にうまくサービスを利用できない点に不満を持っていることも指摘する。運転者がキーボード操作を行なえないなか、音声認識によるハンズフリー操作がこれらの問題を解決する鍵だというのが同氏の意見だ。同日にTellmeは携帯のGPS機能とMicrosoftのLive Search、そして音声認識を組み合わせた音声によるローカル検索サービスを発表しており、この新しい取り組みをアピールするのが同氏の講演の狙いでもある。

米Tellme Networksのコンシューマサービスビジネス部門シニアディレクターのDariusz Paczuski氏はモバイルユーザーが検索サービスに求めるニーズを分析する

では、このTellmeの発表した新サービスとはどのようなものか。実際にWeb 2.0 Expoの展示会場で実機に触れる機会があったので紹介してみよう。Tellmeの提供する専用の検索アプリケーションをスマートフォンなどの携帯電話にインストールすることで、同サービスが機能するようになる。アプリケーションをダウンロード後に起動すると、検索のメイン画面が表示される。この際、アプリケーションは携帯電話のGPSを使って現在位置を読み取り、ユーザーがどの都市にいるのかを把握する(画面端に現在の都市名が表示される)。ここでマイクに向かって検索したい情報、例えば「Restaurants」「Movies」といった単語やフレーズを話しかけることで、その単語やフレーズでの検索を開始、現在位置から近い情報をリストアップして表示する。GPSと音声認識を組み合わせたローカル検索だと言って問題ない。

認識精度にはまだまだ難点も、ハンズフリー操作はUI改良に期待

音声入力の方法は、Tellmeのアプリケーションが起動してメインメニューが表示されている状態で、「通話ボタン」を押したままマイクに向かって話しかける。話しかける内容は前述の検索ジャンルのほか、「Thai Cafe & Restaurant」みたいな店名を直接言っても構わない。フレーズの入力が終わった段階で通話ボタンを離すと検索がスタートする。仕組み的には、話した音声データをそのままTellmeのサーバへと送信し、そこで音声データを分析、個々のデータを単語に分解して検索クエリーとして処理する形態のようだ。もし音声データを分解可能な単語として処理できた場合にはそのまま検索結果を返し、そうでない場合にはエラーを表示してキー操作による単語入力を求める。話しかけるフレーズが長いほどエラー率や誤認識率が上がるため、なるべく短い単語やフレーズを用いるのがコツのようだ。

Tellmeのアプリケーションを起動した直後のメイン画面。GPS機能が作動しており、右上に「San Francico」と地名が表示されていることがわかる。ここで「通話ボタン」を押し続けることで音声入力がスタートする。ボタンを離すとセンターへのデータ送信が行われ、待ち状態に入る

音声入力が終わると、少しの待ち時間の後にすぐに検索結果が表示される。間違えて認識された場合でもすぐに検索結果が表示されてしまうため、どのフレーズで検索が行われたのかを確認するのに一瞬とまどうのと、もし誤認識された場合に1つ前のページへと戻る操作が発生するために煩わしい点が気になる。ページ遷移やオプションの操作は音声認識では行えなえず、画面をよく見ずに操作できるものでもないため、もしハンズフリーや軽快な操作を期待するのであれば今後の改良が必要になると思われる。

検索結果表示後の操作は、何を検索したのかによって若干異なる。例えば「Sushi」「Pizza」などの単語でレストランのジャンル検索を行なった場合、現在位置から近いレストランの一覧がLive Searchのローカル検索をもとにリストアップされる。店の一覧から気に入った店をカーソルキーで選択し、さらに細かい情報や地図上での位置、また現在位置からのルート情報などを掘り下げて調べることができる。もし店名を直接指定した場合は、店の一覧選択の画面をスキップして直接位置情報検索が行なえる。「Movies」を音声認識で検索させた場合、現在近くの映画館で上映中の映画一覧が表示される。ここからチケットの予約や映画館へのルート検索などが行なえる。この検索に関しては、映画情報サイトの「Fandango」のサービスを利用しているようだ。

「Movies」の単語を音声認識させたところ、近所で上映中の映画情報一覧が表示される。上のロゴでもわかるように、同サービスは情報サイトのFandangoのものを利用している。ここからはカーソルキーの操作が必要で、好きな映画を選んでクリックすると、映画のさらに詳細な上映情報が表示される

「Movies」で映画を選択し、さらに一覧表示された映画館を選択すると、そこでの上映時間一覧やチケット購入、地図情報、目的地へのルート情報などの機能選択がアイコンで行える。この後、ルート情報などの地図機能サービスのテストを行ってみたが、屋内からのアクセスのせいかGPSがうまく働かず、現在位置として見当違いの場所を指し示していた

サービスを少し利用してみての感想は、まだまだ誤認識が多いという点だ。ノイズを非常に拾いやすいため、人の多く集まっている場所やノイズの多い場所(例えば車の中など)では誤認識される確率が高い。あとは単語をハッキリと大きな声でゆっくりしゃべる必要がある。最初はあまりにも誤認識が多いために私の英語の発音が悪いのかと思ったが、実際には上記の注意事項を意識して守っていれば認識率が向上するようだ。カーソル選択などの操作も多数発生するため、ハンズフリーとまでは行かないが、煩わしいキーワード入力作業が減るのと、今後の改良への期待で興味深いサービスではある。

現在、TellmeからはBlackBerry用のアプリケーションが無料配布されている。今後、Palm TreoやApple iPhone、Windows Mobileなどのプラットフォームも順次専用アプリケーションの配布でカバーしていくと同社は説明する。またアプリケーションの配布されていないプラットフォームやスマートフォン以外の携帯電話であっても、Tellmeが以前より提供している「411」のビジネス検索機能やフリーダイヤルベースの音声ガイド「1-800-555-TELL」を使って検索サービスを利用できる。