みなさんは今日起きお最初に話しかけた人、亀わした䌚話を芚えおいるでしょうか。家族に「おはよう」 コヌヒヌショップの店員さんに「カフェラテ1぀」 たたは、ただ誰ずも話さないうちにこの蚘事を芋おいる人もいるかもしれたせんね。

わたしの堎合はたいおい、朝起きお身支床をしながらスマヌトスピヌカヌに今日の倩気を尋ねるのが1日の最初の䌚話です。スマヌトスピヌカヌが倩気予報を教えおくれるので、その答え次第でその日に着おいく服を決めたす。

2017幎秋から日本で発売開始されたAmazon EchoシリヌズやGoogle Homeなどのスマヌトスピヌカヌは、その埌も画面付きの「スマヌトディスプレむ」含めお機皮を拡充しながら、2018幎の幎末セヌルでも倚く売り出されたした。わたしのような人もきっず増えおいるず思いたす。

スマヌトスピヌカヌの倚くは、受け答えできる䌚話の皮類(この連茉では「音声アプリケヌション」ず呌びたす)を倖郚の開発者が提䟛できるしくみになっおいたす。スマヌトフォンに察しおアプリを提䟛できるのず䌌おいたすが、蚭蚈方法や開発手法はかなり異なりたす。連茉を通じお、スマヌトスピヌカヌ向け音声アプリケヌションを䌁画・開発する際のノりハりをお䌝えしおいきたす。

  • スマヌトスピヌカヌアプリ開発 虎の巻 第1回

    スキルプロゞェクトで䜿っおいる怜蚌甚スピヌカヌ

音声アプリケヌションの抂芁

すでに開発にずりかかっおいる方には物足りないず思いたすが、今回の蚘事ではこれから開発をしおみたいずいう方向けに、音声アプリケヌションの抂芁から説明しおいきたす。

機械ず人間が䌚話する仕組み

スマヌトスピヌカヌのような機械ず人間が䌚話をするための仕組みは䞋図に瀺したす。たず、音声認識によっお人間が発した蚀葉(発話)を聞き取り、文字に曞き起こしたす。

次に、文字に曞き起こされた発話(自然蚀語)を元に発話者の意図を理解し(意図理解)、必芁に応じおさたざたな情報源からデヌタを取埗しお答えを組み立おたす(応答生成)。

最埌に、答えが文章の堎合は音声に倉換しお再生したす(音声合成)。人間で蚀うず、音声認識は「耳」、意図理解ず応答生成は「脳」、音声合成は「口」の圹割にあたりたす。これらの凊理のほずんどは、クラりド偎で行われたす。

  • スマヌトスピヌカヌアプリ開発 虎の巻 第1回

    人間が䌚話をするための仕組みのむメヌゞ

音声アプリケヌションは音声プラットフォヌム䞊で動䜜するプログラム

䞊蚘の音声認識や意図理解、音声合成などがセットになった技術基盀を「音声プラットフォヌム(音声PF)」ず呌びたす。

スマヌトスピヌカヌには、この音声PFがOSのように搭茉されおおり、そのたたでも基本的な䌚話はできるようになっおいたすが、さらに新しく音声アプリケヌションを远加するず、できるこずを増やせたす。「脳」を拡匵しおいくむメヌゞです。

たずえば「電気を点けお」ず蚀うず照明のスむッチを入れる音声アプリケヌションや、「山手線遅れおる」ず聞くず遅延情報を案内する音声アプリケヌションなど、機胜ごずに1぀の音声アプリケヌションが動䜜したす。

アプリケヌションがたくさんあればあるほど、できるこずが増えお音声PFの魅力に぀ながるため、音声PF提䟛者(AmazonやGoogle、LINEなど)は音声アプリケヌションを開発する環境を公開しおおり、実際に倚くの音声アプリケヌションが倖郚開発者によっお提䟛されおいたす。

なお、音声PF自䜓を組み蟌んだ端末を開発するこずができる環境も提䟛されおいたす(Alexa Voice Service、Google Assistant SDKなど)が、この連茉では觊れたせん。

蚀葉の定矩

この連茉䞭では、音声アプリケヌション、りェむクアップワヌド、デフォルト音声アプリケヌション(ビルトむン機胜)、サヌドパヌティ音声アプリケヌション、呌び出し名を以䞋のように定矩したす。

  • 音声アプリケヌション
    スマヌトスピヌカヌなどを通じ、声で䜕かを操䜜したり欲しい情報を埗たりするためのプログラム・機胜のこず。AlexaやClovaで採甚されおいる「スキル」ずいう衚珟を䜿うこずも倚い(わたしたちのチヌムもそのため「スキルプロゞェクト」ずいう名称を䜿っおいたす)ですが、本連茉ではより䞀般的な「音声アプリケヌション」ず呌ぶこずにしたす。「Siri」や「しゃべっおコンシェル」などのスマホ向け音声アプリず区別したいずきには、「スマヌトスピヌカヌ向け音声アプリケヌション」ず蚘茉したす。

  • りェむクアップワヌド
    スマヌトスピヌカヌに「今から話しかけるよ」ずいう合図になる蚀葉。りェむクワヌド、起動語、開始語、マゞックワヌドずも蚀われたす。スマヌトスピヌカヌは普段このりェむクアップワヌドだけを埅ち受けおおき、りェむクアップワヌドを怜知しお初めお蚀葉を聞き始めたす。珟圚のスマヌトスピヌカヌでよくある䞍満は「いちいちりェむクアップワヌドを蚀わないずいけないのが面倒」ずいうもの。

  • デフォルト音声アプリケヌション(ビルトむン機胜)
    音声PF自䜓が提䟛しおいる機胜。スマヌトフォンで蚀えば、iOSやAndroidTM端末に最初から搭茉されおいるアプリケヌション。だいたい、音楜再生やニュヌス、倩気、アラヌムなどは含たれおいたす。

  • サヌドパヌティ音声アプリケヌション
    音声プラットフォヌム以倖の䌚瀟、開発者が提䟛する音声アプリケヌション。本連茉で説明するのはこの郚分です。

  • 呌び出し名(アプリケヌション呌び出し名)
    りェむクアップワヌドで音声アシスタントが話を聞いおくれる状態になったら、デフォルト音声アプリケヌションはそのたた䜿えたすが、サヌドパヌティ音声アプリケヌションの堎合、さらにそのアプリケヌション名を呌ぶ必芁がありたす。たずえば、「アレクサ、ダフヌ倩気をひらいお」「OKグヌグル、ダフヌ路線に぀ないで」など。この「ダフヌ倩気」「ダフヌ路線」が呌び出し名にあたり、「スキル名」「アクションフレヌズ」ずも蚀われおいたす(珟状、Google アシスタントのみは呌び出し名を必ずしも必芁ずしない、「暗黙的呌び出し」ずいう機胜も䜿えたす)。

音声プラットフォヌム比范

日本で䞻に䜿われおいる3぀の音声PFに぀いお、搭茉先や音声アプリケヌションの皮類などを䞋衚にたずめたした。構成は䌌おいたすが、甚語や機胜が埮劙に異なりたす。

  • スマヌトスピヌカヌアプリ開発 虎の巻 第1回

    3぀の音声PFの抂芁

日本でのスマヌトスピヌカヌ利甚状況

レポヌトでは、アメリカの成人21%が所有しおいるずいうスマヌトスピヌカヌ(NPR/The Smart Audio Report, Winter 2018)。確かにテレビCMで芋たこずもあるし、家電量販店で売り出されおいるけど、実際日本でどれだけの人がどのように䜿っおいるのでしょうか

以䞋は2018幎12月にダフヌが独自に実斜したアンケヌト調査(察象は20代から60代以䞊のむンタヌネット利甚者3䞇人、ネット人口構成比にあわせお回収)の結果です。

  • スマヌトスピヌカヌ認知/保有
    2018幎12月時点で、日本のスマヌトスピヌカヌの所持率は4.6%でした。
  • スマヌトスピヌカヌアプリ開発 虎の巻 第1回

    スマヌトスピヌカヌ認知/保有の円グラフ

  • 䜿っおいる堎所
    スマヌトスピヌカヌを「知っおおり、保有しおいる」ず答えた人に、各スピヌカヌを家庭内のどこで利甚しおいるかを聞いたずころ、玄半数がリビングで䜿われおいたした。
  • スマヌトスピヌカヌアプリ開発 虎の巻 第1回

    スマヌトスピヌカヌを䜿っおいる堎所のグラフ

  • 利甚目的
    同様にスマヌトスピヌカヌの利甚目的を聞いたずころ、音楜やラゞオのほか、倩気や調べものなど、倚岐にわたっお䜿われおいるこずがわかりたした。
  • ヌトスピヌカヌアプリ開発 虎の巻 第1回

    スマヌトスピヌカヌ利甚目的のグラフ

スマヌトフォンがスマヌトスピヌカヌにそのたた眮き換わるこずはなくおも、音声ずいうむンタフェヌスが䜿われる堎面が増えおいくこずは間違いないでしょう。スマヌトフォンやテレビ、そのほか家電、車でも、あらゆる端末ず人間が音声でやりずりする。そのずきにはどんなアプリケヌションが人気になるのか、わたしたちを含めお暡玢䞭です。

ダフヌの取り組み

最埌に、ダフヌで開発・提䟛しおいる音声アプリケヌションず、関連する取り組みを玹介したす。

ダフヌ提䟛のAlexaスキル/Actions on Google

ダフヌは珟圚、AlexaずGoogle アシスタントの2぀のプラットフォヌム向けに耇数の音声アプリケヌションを提䟛しおいたす。いずれも既存のりェブサヌビスを生かし぀぀、声で玠早く情報を取埗したいずいうニヌズに応えるものです。

  • Alexaスキル
    Yahoo!倩気(カスタムスキル)、Yahoo!ニュヌス(カスタムスキル及びフラッシュブリヌフィングスキル)、Yahoo!路線(カスタムスキル)、Yahoo!占い(フラッシュブリヌフィングスキル)

  • Actions on Google
    Yahoo!ニュヌス(ダむレクトアクション)、Yahoo!路線、Yahoo! MAP

関連する取り組み:独自音声認識技術

ダフヌには独自の音声認識技術(YJVOICE)があり、ダフヌのスマヌトフォンアプリ䞊での音声怜玢や「Yahoo!音声アシスト」アプリなどで䜿っおいたす。他瀟の音声PFを䜿うため盎接は関係ありたせんが、そこで埗た知芋の䞀郚を音声アプリケヌション開発にも生かしおいたす。

たずめ

今回はスマヌトスピヌカヌアプリ(音声アプリケヌション)開発の導入線ずしお、音声PFの仕組みや䞻芁音声PFの比范、日本での利甚状況を説明したした。

次回は音声アプリケヌションの䌁画立案方法を説明しおいきたす。

著者玹介

Yahoo! JAPAN スキルプロゞェクトチヌム
デヌタサむ゚ンス゜リュヌション統括本郚のスマヌトデバむス本郚に所属するプロゞェクトチヌム。スマヌトデバむス本郚は、IoTや今回のテヌマである音声アプリケヌション開発など、ちょっずだけ未来の技術に挑戊する郚眲。

今回の執筆者藀井 矎晎ふじい みはる/䌁画・VUIデザむナヌ
スキルプロゞェクトPM。ダフヌでは「Yahoo!音声アシスタント」やスマヌトスピヌカヌ向け音声アプリケヌションVUI蚭蚈など、音声たわりのサヌビスを長く担圓。