Google Assistant、DeepMindの「WaveNet」導入で自然な日本語を実現

WaveNet launches in the Google Assistant - DeepMind

DeepMindは10月4日(米国時間)、「WaveNet launches in the Google Assistant｜DeepMind」において、1年間かけて機械学習により自然な音声を生成する技術「WaveNet」の高速化を進め、現在ではWaveNetがGoogle Assistantの日本語音声と英語音声(米国)に使われていると伝えた。同社のWebサイトでは、WaveNetを使った日本語音声とWaveNetを使っていない日本語音声を聞き比べることができ、WaveNetの音声のほうが自然に聞こえることを確認できる。

オリジナルのWaveNetモデルを支えている畳み込みニューラルネットワーク(Convolutional Neural Network)- 資料: DeepMind提供

WaveNetはかなり自然な音声データを生成できるとして高い注目を集めたが、発表段階ではサービスに利用するには計算の時間がかかりすぎるという課題を抱えていた。DeepMindは処理の高速化に取り組み、最終的に1000倍という高速化を実現したとしている。


オリジナルのWaveNetでは0.02秒の音声を生成するのに1秒かかっていた - 資料: DeepMind提供	改善された現在の実装では1秒で20秒分の音声を生成することが可能 - 資料: DeepMind提供

ほかの音声生成システムと比較してより人間に近い音声を実現しているWaveNet - 資料: DeepMind提供

音声を使ったスマートデバイスの操作は、この数年で一気にコンシューマに普及した。より自然な音声データの生成はこうしたデバイスの利用シーンをさらに広げる要因の1つになると見られる。WaveNetが生成する日本語音声は注意して聞かなければ、録音状況が悪いネイティブ録音ではないかと思うくらいに自然に感じることができる。