Microsoft、たった3秒の音声サンプルから合成音声を作るAI発表

Microsoftの研究者がこのほど、「VALL-E - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers」において、人の声を忠実にシミュレートできる新たな音声合成人工知能(AI: Artificial Intelligence)をモデルを発表した。「VALL-E」と名付けられたこの音声合成AIモデルは、3秒間の音声サンプルを与えるだけで、学習してその人物の音声を合成することができ、話者の感情的なトーンを維持するように設計されている。

VALL-E - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

発表されたVALL-Eは「Neural Codec Language Model」とも呼ばれ、2022年10月にMetaが発表した人工知能技術を用いた音声コーデックである「EnCodec」の技術をベースに開発されている。波形を操作して音声を合成する他の音声合成技術とは異なり、テキストと音響プロンプトから個別の音声コーデックコードを生成する技術が採用されている。

Model Overview｜VALL-E

具体的には、人の声を分析して3秒間の登録済み録音を音響プロンプトにし、学習データを使って音響プロンプトのサンプル以外の音声を高品質な個人化音声に合成できると説明されている。

VALL-EのWebサイトには、いくつかのサンプル音声が公開されている。左側に読み上げられるテキストが用意されており、Speaker PromptにVALL-Eに必要な3秒間の音声サンプル(読み上げられるテキストとは異なる)が収められいる。Ground Truthは比較のために単純に録音された音声で、Baselineは既存の合成音声技術で作られた音声、VALL-EにVALL-Eモデルから出力された合成音声となっている。

MicrosoftはVALL-Eを発表したものの、現在のところ提供はされていない。詐欺に使われる可能性があるとみられており、音声識別の偽装や特定の話者へのなりすましなど、モデルの誤用による潜在的なリスクを抱え込む可能性がある。音声が合成されたものかどうかを判別する検出モデルを構築することも重要と結論付けられている。