音声対話システムを備えたロボットを見かける機会は増えているが、いざ話しかけてみると、返答の一本調子な音声に興醒めしてしまうことがある。見た目が人間に近く、高度な内容の会話にも対応可能な人型ロボットであった場合、機械的な音声を発することで感じる違和感は尚更だ。その違和感に着目したヤマハが、音声対話システムに「人間らしさ」を与えるべく開発した自然応答技術「HEARTalk(ハートーク)」。この技術は、音声対話システムの在り方にどのような影響を与えるのだろうか。

音声対話システムによる「人間らしい」会話を可能とする技術だ

音にこだわるヤマハならではの技術

人間同士が会話する場合、聞き手は発話者の声の強弱、長短、高低、間、抑揚といった「韻律」を感じ取り、発話者の調子に合わせて応答の韻律を変化させる。ヤマハのハートークは、発話者(人間)の声の韻律を聞き分け、音声対話システムによる応答に変化をつける特許出願中の技術だ。

ハートークと連動した音声対話システムは、音声処理技術を用いて人間の声をリアルタイムに解析し、声の音程、周波数、話すスピードなどを読み取ったうえで、音声合成による返答に適切な韻律を持たせる。会話の意味ではなく、会話の調子を感じ取ることに特化した技術といえる。

音声認識→返答テキストの作成→音声合成と進む従来の対話システムにハートークを介在させることで、システムが発する音声に「韻律」を持たせる

既存の音声対話システムに組み込むビジネスモデル

ハートークの主な用途としては、既製の音声対話システムへの組み込みを想定している。例えばロボット、スマートフォン、カーナビゲーションシステム、玩具などへの展開が考えられる。ハートークはあくまで韻律に関する技術であるため、会話の意味を読み取る音声認識技術はフュートレック、音声合成技術はNTTアイティのものを活用する。

ビジネスとしては、まずは「相槌」に特化したソフト・ハードのライセンス供与からスタートする。人間の問いかけ音声に合わせて、自然な韻律で「うん」や「はい」といった相槌を打つ仕組みを企業向けに売り込む。ソフトウェアライセンスの提供先としては、すでに音声対話システムを自社開発している法人を想定。ハードウェアの方は、基盤モジュール、参考回路図、参考サンプルプログラムの3つを提供するビジネスモデルとなる。基盤モジュールは一辺が約2cmと小さく、玩具などへの組み込みに向いていそうだ。

3社の役割分担。ビジネスとしての取りまとめはフュートレックが行う

音声認識と音声合成にハートークが連動したフルパッケージの音声対話システムは、2016年内に提供を開始する予定。では、ハートークはどのような企業に訴求するのだろうか。