NTTテクノクロスは12月5日、音声合成ソフト「FutureVoice Crayon」をバージョンアップし、同日から販売すると発表した。従来の音声合成技術よりも、自然な声を実現したという。

音声合成は、コンタクトセンターでの自動音声案内や、音声対話サービスやロボットによる受付案内などで利用されている。

今回の新バージョンでは、音声合成にNTTメディアインテリジェンス研究所が開発した深層学習(DNN)を活用することで、少量の音声データから声のバリエーションを簡易に増やせると同時に、従来の音声合成技術よりも自然な声を実現したという。

具体的には、イントネーションや声質の元となる既存の大量の音声データベースを利用して、DNNを活用した音声合成をすることで、今まで困難であった声の特徴を忠実に再現した自然な音声を作成できるようになったという。

  • 深層学習(DNN)を活用した音声合成のイメージ

また、 既存の大量の音声データベースと深層学習を活用し、話者が違う音声のデータから読み方やアクセントを補うことで、所望の話者の少量の音声データからその話者の自然な音声合成を実現した。

同社では、これにより、今まで音声合成では置き換えが困難であったナレーションやガイダンス作成・電子書籍の読み上げなどでの用途拡大が見込めるとしている。