お知らせ: プライバシーポリシーを一部改訂しました

Google、人が話すような音声を生成する技術「Tacotron 2」

掲載日 2017/12/21 11:19

著者：後藤大地

Google

Googleは2017年12月19日(米国時間)、「Research Blog: Tacotron 2: Generating Human-like Speech from Text」において、これまでよりも自然な音声を生成する技術「Tacotron 2」について伝えた。この技術を使うこと、でテキストからより自然な音声を生成することができるとしている。

Tacotron 2を使って生成された音声は「Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"」で確認できる。それぞれ学習の過程を経てより自然な音声が生成される様子を確認することができ、最後のサンプルでは人間と機械音声の差を聞き分けるのはかなり難しいところまで自然になっている。

Tacotron 2では複雑な言語や音響機能などは利用していない。Tacotron 2ではテキストとそれに対応するスピーチサンプルをニューラルネットワークトレーニングによって学習させるという手法を取っている。開発された技術の詳細は「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」に説明がまとまっている。

Tacotron 2のモデルアーキテクチャ - 資料: Google

Tacotron 2によって生成された音声はかなり自然に聞こえるほか、スペルミスや文章中のちょっとしたニュアンス（人であれば自然と行っているニュアンス）の表現にも対応。サンプルを聴く限りではどちらが機械音声でどちらが人間の音声を録音したものかの区別をつけることが困難なレベルに到達している。

本稿執筆時点で、Tacotron 2はリアルタイムの処理はできず、複雑な単語も発音することができない。加えて、時折ノイズも生成してしまう、悲しみや楽しさといった感情を音声として表現することもできないといった課題もあるという。

テキストから音声を生成する技術はこの数年で大幅な進化を遂げており、すでに大手ベンダーがクラウドベースでAPIを提供している。こうしたAPIを用いたプロダクトも日常的に活用されるようになってきている。

新規無料会員登録はこちらから

ログイン／無料会員登録

会員サービスの詳細はこちら

AIが勧める、あなたのための会員限定記事

アクセスランキング

ランキングをもっと見る

もっと見る

編集部が選ぶ関連記事

Google

関連リンク

Google

※本記事は掲載時点の情報であり、最新のものとは異なる場合があります。予めご了承ください。

新着記事

こちらも注目

このカテゴリーについて

開発/エンジニアシステムやソフトウェアの開発に携わるエンジニアに向けた最新情報など仕事に役立つ話題などを提供していきます。