日本電信電話(以下、NTT)は6月17日、ある話者の声をまるで他の話者が話しているかのように高品質かつ低遅延に変換する技術を考案したことを発表した。Web会議やライブ配信などで、リアルタイムな音声変換が可能になるという。今後はスマートフォンやVRデバイスなどを用いてさまざまな場面で応用が期待される。
高い変換性能
特徴量変換器は、話者の音声特徴量を別の話者の音声特徴量へ変換する。変換モデルはEncoderとDecoderの2つのモジュールで構成され、Encoderは入力音声から中間特徴量を抽出し、Decoderは抽出された中間特徴量に目標とする話者の情報を付与することで、変換音声の特徴量を生成する。
ここでは、Encoderの出力である中間特徴量が十分に汎化された特徴量であることが重要となる。例えば、異なる2人の話者が同じ文章を発声した際には、同じ中間特徴量が抽出されるべきである。しかし、従来の音声変換では、2人の話者が同じ文章を発声しても同じ中間特徴量になっていないという。同社によると、中間特徴量に入力話者の情報が多く残留しており、変換性能に劣化が生じる原因となっていたそうだ。
そこで今回の技術では、入力音声と発話内容は同じだが話者情報が異なる音声(声の高さのみ低く加工した音声など)を擬似的に生成し、入力音声の中間特徴量と擬似的に作成された音声の中間特徴量とを近づける制約を新たに導入。これにより、従来法に比べて中間特徴量における話者情報の残留が1万分の1以下に低減されるという。
この話者依存性の低い音声表現の獲得により、結果として高品質な特徴量変換を実現できるようになった。こうして変換された音声特徴を軽量で高速動作可能な波形合成器に入力することで、最終的な変換音声の波形が得られる。
低遅延な変換処理
会話の際に人は自分の話し声を聞きながら発声しており、これはフィードバック音声と呼ばれる。遅延聴覚フィードバックの研究により、フィードバック音声をわざと大きく遅らせると発話しづらくなることが知られる。そのため、音声変換システムを通った変換音声を発話者が聞くという状況下では、スムーズな発話のために音声変換で生じる遅延を数十ミリ秒以内に抑える必要がある。
一般的な音声変換では変換精度を高めるため、多くの情報を入力として与える。例えば、ある時刻の変換音声を生成する際に、当該時刻の入力音声フレームだけでなく未来の入力音声フレームも同時に用いる(non-causal)モデルを用いて変換を行う。一方で、この技術は未来フレームの入力を待つため大きな遅延が生じる。
今回開発したリアルタイム音声変換は低遅延な動作を保証するため、未来フレームを一切使わず当該時刻と過去の音声フレームのみから変換音声を生成する(causal)モデルを採用した。この際に、未来フレーム分の情報が入力から減るため変換精度の劣化が生じるが、高い変換性能を示す上記技術と組み合わせることで、高品質と低遅延を両立したリアルタイム音声変換を実現ているという。