Stability AIは9月13日(米国時間)、テキスト・プロンプトから音楽・サウンドを生成する「Stable Audio」を発表した。従来の拡散モデルによるオーディオ生成に比べて、ユーザーが出力をよりコントロールしながら44.1 kHzのオーディオを生成できる。Professionalプランでは商用利用が可能だ。

Stability AIはストックミュージックプロバイダーのAudioSparxと提携し、音楽、サウンドエフェクト、楽器のステムなど80万以上のオーディオファイルを含むデータセットを使用してAIモデルのトレーニングを行った。これまで拡散モデルを利用したオーディオ生成には、30秒のオーディオクリップでトレーニングすると生成オーディオも30秒になるというような出力サイズが固定される問題があった。また、長いオーディオファイルからランダムに切り取られたオーディオでトレーニングされていることが多く、音楽フレーズの切り貼りのようなオーディオが生成される原因になっていた。

Stable Audioのlatent diffusionモデルでは、テキスト・メタデータ、オーディオファイルの長さや開始時間を条件に、生成されるオーディオの内容や長さを制御することが可能。この追加のタイミング調整により、オーディオの長さをトレーニングウィンドウ・サイズまで指定して生成できる。大幅にダウンサンプリングしたオーディオの潜在表現を使用することで、生のオーディオと比べて推論時間を短縮でき、上位のStable Audioモデルは、NVIDIA A100 GPUを使用して、44.1 kHzのサンプルレートで95秒のステレオオーディオを1秒未満でレンダリングできるという。

Stable Audioには、無料で使用できる「Free」(20トラック/月、トラックの長さ:最大45秒)、商用利用が可能な「Professional」(500トラック/月、トラックの長さ:最大90秒)、企業向けの「Enterprise」の3つのプランが用意されている。

オープンAIモデルに取り組むStability AIは、音楽・サウンド生成モデルについても、異なるデータでトレーニングしたモデルをオープンソース化するとのこと。