Appleは開発中の機能をエンドユーザーに提供するのを好まないが、新機能としてiPhone 4Sに搭載された音声アシストサービス「Siri」はベータ版である。なぜか?

Daring FireballのJoh Gruber氏は「幅広く利用された方が音声認識を向上させやすいのだろう」と予想している。これに対してIBM Researchで6年近く音声認識技術を研究してきたBenoit Maison氏が専門家の立場から「向上が容易になるというより、それしか方法がないのだ!」と補足した。近年のスピーチ認識の精度向上が、アルゴリズムの改善ではなく、より多くのデータ収集によってもたらされることに何人もの研究者が言及しているそうだ。

この書き込みを読んで思い出したのが、米テクノロジー業界のご意見番Tim Bajarin氏が10月末に公開した「なぜGoogleとMicrosoftはSiriを嫌うのか」という記事だ。Asia DでGoogleのAndy Rubin氏がSiriについて「携帯電話はアシスタントになるべきだとは思わない……携帯電話はコミュニケーションのためのツールだ」と発言し、またMicrosoftのAndy Lees氏が「役立つツールだとは思えない」と述べたのを紹介した。しかしGoogleとMicrosoftはともに音声認識技術の研究に熱心で、すでに検索サービスと連携する音声機能を実現している。それなのにSiriに対して批判的な姿勢はおかしいじゃないかというわけだ。

Bajarin氏は、GoogleとMicrosoftの拒否反応には2つの理由があるとしている。1つは「ジェラシー」。同氏がMicrosoftの音声認識技術研究の成果を初めて見たのは1992年に遡る。Googleでも7年以上前から同様の研究が進んでいたという。どちらも音声UI技術に未来があると考えている。そんな2社から見ても、AppleのSiriはユーザーの話し言葉の意味を理解するという点で先進的であるという。

もう1つは「将来性」だ。「2社がSiriを嫌う本当の理由は、その近い将来の姿にあるだろう。気づいていない方もいるかもしれないが、Siriは自身の膨大なデータベースに加えてYelpやWolfram Alphaなどいくつかのメジャーなデータベースのフロントを務める音声技術だ。これら複数のデータベースに対するエントリーポイントとして機能している」(Bajarin氏)。たとえばSiriに「最も近いピザ屋は?」とたずねると、Yelpの情報へのリンクを返し、さらにGoogle Mapsの情報にも導いてくれる。Bajarin氏はSiriを武器に、Appleがローカル検索サービスやマップ検索を自身で提供するようになり、広告収入の幅を広げると予想する。

GoogleとMicrosoftがSiriを嫌う理由が「ジェラシー」と「将来の可能性」であるというのは概ね同意できるが、Siriを通じてAppleが広告事業の拡大を狙っているというのはどうだろう。それはAppleの収穫の仕方とは、ちょっと違うように個人的には思う。2社が感じるSiriの将来性への脅威はむしろ、Appleがまだ成長段階のSiriを大胆かつスマートに実装していることではないだろうか。Siriはすでに使いやすい形でiPhoneに組み込まれている。iPhoneを耳に当てたり、ホームボタンを長押しするだけで簡単にSiriを起動できる。しかもWeb検索のためだけではなく、iPhoneの利用全般に広く用いられるから、ユーザーが使ってみようと思う。これはソフトウエアとハードウエアの全てをコントロールできるAppleだから実現したことだ。Siriのサービス自体については奇妙な反応や不適切な対応が批判されたりもするが、そんな話題が盛り上がるほど実際に使っている人が多いというのが重要なのだ。

ベータ期間を経て熟成されたSiriがiPhone 4S以外のApple製品にも採用されるようになり、もしAPIが公開されたらApple製品で動作するアプリは大きく変わる。それはiOS・Mac OSの大きな魅力になるだろう。しかもMaison氏が指摘するように、音声認識技術の精度を高める"唯一"の方法はデータ収集なのだ。これはタッチインタフェースと違って、ライバルのプラットフォームが簡単に真似できるものではない。Appleの財産であり、同社の非常に大きなアドバンテージになる。

音声アシスタントは一日にして成らず

ゲームの枠を超えたXbos 360の売れ行き

話は変わるが、ブラックフライデーの週に米国でXbox 360の販売台数が960,000台を超えた。またバンドル販売も含めると、同じ期間に750,000台以上のKinectセンサーが売れたそうだ。ブラックフライデーの勝者としてAmazon.comやAppleが挙げられているが、最大のサプライズはXboxである。今年の後半に話題のゲームタイトルが多数登場し、またXbox 360本体の価格も手頃になっているとはいえ、7年目を迎えたゲーム機としては際立つ売れ行きだ。Mary Jo Foley氏が「こんなにたくさんのXbox、いったい誰が買っている?」という記事を書いている。これに反応した人たちのツイートを読むと、2台目・3台目として購入している人が目立つ。居間とは別に自室や寝室にも……という感じである。

米国においてXbox 360が今やゲームの枠を超えて各家庭に浸透し始めているのは明らかだ。Xbox LIVEのGoldメンバーならNetflixやHBO Go、Hulu Plus、ESPNなども利用できる。最新のアップデートはVerizonのFiOS TVやComcastのXfinityをサポートし、これらが提供するコンテンツを音声を用いて横断的に検索できる。Google TVの苦戦を後目に、MicrosoftはXbox 360で着々とTVとWebの世界を結ぶ機能・サービスを充実させている。例えば、Kinectを通じてジェスチャーと音声を用いて操作するXbox LIVE版のESPNでは、ボタンと格闘することなく手軽に統計データにアクセスしながらスポーツの試合やニュースを楽しめる。他のスポーツチャンネルにはない視聴体験だ。

ESPN on Xbox LIVE

MicrosoftのTellMeを用いたモバイル分野の音声検索・ナビゲーションが今ひとつ知られていないのとは対照的に、まだ改善の余地がありそうなKinectが急速にユーザーとコンテンツ提供者の間に浸透しているのは、XboxというMicrosoft自身が手がけるハードウエアとの組み合わせで提供されている影響が大きいと思う。Apple、おそらくGoogleもジェスチャーUIを研究していると思うが、それらがKinectを毛嫌いしたくなるようなアドバンテージをMicrosoftは備えようとしている。