英Stability AIは11月22日、text-to-video(テキストから動画)生成やimage-to-video(画像から動画)生成を可能にするビデオ潜在拡散モデル(LDM)「Stable Video Diffusion」を発表し、研究向けに2つのモデルをリリースした。

近年、画像合成のために訓練されたLDMに時間的レイヤーを挿入し、それらを高品質な動画データセットで調整することで、LDMが動画生成モデルへと変化しているが、ビデオLDMを成功させる効果的な学習戦略はまだ確立されていない。Stability AIは、テキストから画像へのプリトレーニング、大規模なデータセットによる低解像度でのビデオでのプリトレーニング、高品質なデータセットでの高解像度ビデオのファインチューニングの3つの段階に着目して学習効果を評価した。また、十分にキュレーションした学習データセットを用いる効果も確認し、多段階の訓練アプローチとデータキュレーションスキームが高性能なモデル開発に重要な役割を果たすと結論づけている。Stable Video Diffusionは、より少ない計算リソースで高品質な動画を生成でき、Loraモジュールへの適応性、多視点の動画生成や多視点合成での成果も示しているという。

研究向けにリリースしたモデルは、解像度576x1024、14フレームの動画を生成する「SVD」と、同じアーキテクチャで25フレーム生成用に微調整された「SVD-XT」の2種類。それらによる動画生成はimage-to-videoのみで、長さが4秒以下、ゆっくりとカメラがパンする動画に限られる。GitHubのリポジトリでコードが公開されており、ローカルでモデルを実行するために必要なウェイトはHugging Faceから入手できる。text-to-videoについては、順番待ちリストへの登録を受け付けている。