富士通研、高品質な音声合成技術を開発 - CMOS評価で約80%を達成

ニュース
トップ

富士通研、高品質な音声合成技術を開発 - CMOS評価で約80%を達成

  [2009/07/27]

富士通研究所は7月27日、人間の声に近づいた音声合成技術を開発したと発表した。同技術による合成音声は、音声品質の評価方法であるCMOS(Comparison Mean Opinion Score)評価において、プロのナレーションの品質の約80%となる高いスコアを達成している。

これまで、合成音声をより自然で人間の音声に近づけるには幾つかの課題があった。例えば、人が文章を読み上げる際、いくつかの音が自然にまとまり、無意識のうちに日本語独特のリズム(発話リズム)で発声しているが、音声合成で人間らしい流暢な語り口を実現するためには、このような発話リズムを適切に制御することが必要となっていた。また、合成音声は入力した文章に適した音声波形をつなぎ合わせることにより生成されるが、人間の声と区別がつかないほどに歪みのない声質を実現するためには、どのような文章の入力に対しても最適な音声波形を用意できる音声波形データベースを開発することが課題となっていた。

今回、同社では独自の発話リズム制御モデルと音声波形データベースを開発することで、これらの課題を解決した。発話リズム制御モデルでは、人間の発話リズムを解析するための新たな統計手法を開発し、独自の制御モデルを構築した。これにより、各音の長さについて、肉声との差を従来の2/3に抑え、1つひとつの音の長さのバランスがとれた、流暢な読み上げ音声が実現された。

一方のデータベースでは、さまざまなイントネーションを網羅し、かつ使用頻度の高い単語や文例を中心とした、従来比として約10倍となる数万個フレーズからなる大規模音声波形データベースを構築。同データベースを用いることで、合成文章に適した音声波形を選択することができるようになり、各単語間のつながりなど、機械的な歪みのない合成音声が生成できるようになったという。

開発された音声合成技術の概要

なお、同社では、同技術を用いることで明瞭さと自然さを兼ね備えたプロのナレータの音声に迫る読み上げが可能になり、各種アナウンスなど、さまざまな利用シーンで最適な合成音声が利用できるようになるとしており、今後、各種利用シーンに対して迅速な適用を可能にするための機能強化を図り、2009年度上期中の実用化を目指すとしている。

関連したタグ


ITセミナー

一覧

関連記事

関連サイト

新着記事

特別企画

一覧

    人気記事

    一覧

    イチオシ記事

    新着記事

    音声通話定額の新料金プラン、ドコモは打撃受けるもKDDIは影響限定的
    [23:05 10/31] 携帯
    東京都台東区・浅草で、三重県伊賀市の「忍びの里 伊賀産を味わう」を開催
    [23:00 10/31] 旅行
    サイコム、GeForce GTX 750搭載のエントリー向けゲーミングデスクトップPC
    [23:00 10/31] パソコン
    [フジテレビ・亀山社長]タモリ新番組を絶賛 「さらに芸域を広げた」
    [22:54 10/31] エンタメ
    [北野武]「SAMURAI賞」受賞で 「脱皮のきっかけになれば」
    [22:47 10/31] エンタメ

    特別企画

    一覧