富士通研究所は3月31日、高品質で多彩な声を短期間で作成でき、利用シーンや利用環境に合わせたトーンで情報を伝える音声合成技術を開発したと発表した。

テキストを音声で読み上げる音声合成技術は、刻々と変化する交通情報の放送や、住民向けに地域の情報を放送する市町村防災行政無線、美術館・博物館の展示ガイダンス音声、電話による問い合わせに自動音声ガイダンスで応答する自動音声応答システム、カーナビをはじめとする組み込み端末の音声アプリケーションなど、幅広く利用されている。また、工場や作業現場などでは、ハンズフリーで作業を妨げないという利点から、音声で情報を通知するという使い方も始まっている。このような中、従来の音声合成技術はテキストを読み上げるだけだったが、利用シーンが広がるにつれ、多彩な声やトーンを自在に使い、表現力豊かにわかりやすく情報を伝える音声合成技術が望まれている。

音声合成の利用シーン

従来の音声合成技術は、話速や声の高低などの単純な調整は可能だったが、利用シーンや利用環境にあった声やトーンでの合成が困難で、伝えたい情報やイメージが十分に伝わらないという問題があった。加えて、音声サービスに使用する高品質な音声合成の声を、サービスイメージに合うように、新しく作成したいというニーズがあったが、すぐには作成できないという問題もあった。

そこで今回、現場の状況に応じたトーンで合成でき、さらに、高品質で多彩な声を短期間で作成できる音声合成技術を開発した。従来は、あらかじめ大量に収録した音声波形を繋ぎあわせて合成する方式を採用していたのに対し、開発した技術は、より柔軟な合成を実現するため、音声を、声質、イントネーション、間の取り方、といった音声の複数の特徴をうまく捉えたパラメータに変換して合成する方式を採用している。

具体的には、警告感のある声や通りやすい声といった特徴的な声のトーンと、普段の声のトーンとの違いをパラメータに反映させることにより、現場の状況に応じたきめ細かなトーンの音声合成を実現した。話速や声の高さ、明るさを一様に調整するだけではなく、リアルな表現で情報を伝えることができる。これにより、緊急度に応じて警告感のあるトーンに変えたり、騒音レベルに応じて通りやすい声に変えたりすることができる。

また、パラメータに変換する技術と、機械学習を用いたアルゴリズムにより、音声の特徴を効率的に抽出できるので、元となる音声の収録が少量で済み、高品質で多彩な声を従来の約1/30の期間で作成できるようになった。これにより、新しい音声合成の声を、短期間でカスタム提供できるという。

開発した音声合成の概要

今回開発した技術を用いると、例えば工場で運用中のシステム稼働状況を作業員に音声で通知するシステムでは、通常メッセージは普通のトーン、エラーメッセージは警告感のあるトーン、緊急時のメッセージは強い警告感のあるトーンで通知することができる。また、騒音レベルに応じて、声の通りやすさを変えることで、騒音が激しいところでもスピーカーからの情報を聞き取りやすくなる。これらにより、近年需要が高まっている市町村防災行政無線などにも応用することができ、普段の地域のお知らせは落ち着いた声、災害時においては状況の深刻さに応じた警告感のあるトーンで放送することができる。

また、各種音声サービスにおいて、親しみのある声やキャラクターのような特徴的な声など、サービスイメージに適した声を利用できる。さらに、声の特徴を反映した音声合成を少量の音声収録で実現できる特徴を生かして、医療福祉に応用することも可能で、病気で声を失ってしまう人の声をあらかじめ収録しておけば、その声を合成して会話することができるという。

開発した音声合成の利用例

なお、同技術は2014年度中の実用化を目指し、音声合成のさらなる高品質化を進めていくとしている。