Stability AI、テキストから音楽・サウンドを生成する「Stable Audio」

Stability AIは9月13日（米国時間）、テキスト・プロンプトから音楽・サウンドを生成する「Stable Audio」を発表した。従来の拡散モデルによるオーディオ生成に比べて、ユーザーが出力をよりコントロールしながら44.1 kHzのオーディオを生成できる。Professionalプランでは商用利用が可能だ。

Stability AIはストックミュージックプロバイダーのAudioSparxと提携し、音楽、サウンドエフェクト、楽器のステムなど80万以上のオーディオファイルを含むデータセットを使用してAIモデルのトレーニングを行った。これまで拡散モデルを利用したオーディオ生成には、30秒のオーディオクリップでトレーニングすると生成オーディオも30秒になるというような出力サイズが固定される問題があった。また、長いオーディオファイルからランダムに切り取られたオーディオでトレーニングされていることが多く、音楽フレーズの切り貼りのようなオーディオが生成される原因になっていた。

Stable Audioのlatent diffusionモデルでは、テキスト・メタデータ、オーディオファイルの長さや開始時間を条件に、生成されるオーディオの内容や長さを制御することが可能。この追加のタイミング調整により、オーディオの長さをトレーニングウィンドウ・サイズまで指定して生成できる。大幅にダウンサンプリングしたオーディオの潜在表現を使用することで、生のオーディオと比べて推論時間を短縮でき、上位のStable Audioモデルは、NVIDIA A100 GPUを使用して、44.1 kHzのサンプルレートで95秒のステレオオーディオを1秒未満でレンダリングできるという。

Stable Audioには、無料で使用できる「Free」（20トラック/月、トラックの長さ：最大45秒）、商用利用が可能な「Professional」（500トラック/月、トラックの長さ：最大90秒）、企業向けの「Enterprise」の3つのプランが用意されている。