Stable Diffusion 3発表、Soraで話題の拡散トランスフォーマーを採用

英Stability AIは2月22日（現地時間）、画像生成機械学習モデルの新版「Stable Diffusion 3.0」の早期プレビューを発表した。新しいアーキテクチャを採用し、画質、マルチサブジェクト・プロンプトの処理、テキスト生成の精度が向上している。22日に早期プレビューのウエイティングリストへの登録受付が始まった。これは、一般公開に先駆けて性能と安全性を向上させるためのフィードバック収集を目的としている。

Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャにフローマッチングを組み合わせている。Stability AIは2022年8月以降、Stable Diffusion 1.4、1.5、2.0、2.1、XL 1.0、XL Turboを次々にリリースしてきたが、バージョン3.0は既存のモデルの強化版ではなく、アーキテクチャの刷新という点でオリジナル以来の大きな変更になる。

2月15日に米OpenAIが発表した動画生成AI「Sora」が生成するリアルな動画が大きな話題になった。Stability AIのEmad Mostaque氏（CEO）によると、Stable Diffusion 3のトランスフォーマー・アーキテクチャに基づいた新しいタイプの拡散モデルは、Soraと同様の手法である。このモデルでは、画像を小さなパッチに分割して扱い、それらを潜在空間にマッピングする際に、トランスフォーマーを用いてパッチ間の複雑な関係を学習する。

フローマッチングは、Continuous Normalizing Flows（CNF：連続正規化フロー）に基づく生成モデリングの新しい手法で、拡散パス以外の確率パスを持つCNFの訓練を可能にする。拡散パスとフローマッチングを組み合わせることで、より高速な訓練、効率的なサンプリング、優れたパフォーマンスを実現した。これら技術の詳細については、近日中にレポートが公開される予定である。

生成AIはパフォーマンスの向上に伴い、クラウドベースからスマートフォンやPCなどで動作するオンデバイスAIへと広がっている。Stable Diffusion 3は、8億〜80億パラメータの幅広いサイズで提供され、生成AIに対する多様なニーズと拡張性、品質の要求に応える。スマートフォンでは音声で会話でき、カメラによる撮影が可能だ。Mostaque氏によると、新しいアーキテクチャのStable Diffusion 3はマルチモーダル入力に対応する。さらに、ビデオや3Dコンテンツの生成にも対応可能だという。

- Will be released open, the preview is to improve its quality & safety just like og stable diffusion
- It will launch with full ecosystem of tools
- It's a new base taking advantage of latest hardware & comes in all sizes
- Enables video, 3D & more..
- Need moar GPUs..
— Emad (@EMostaque) February 22, 2024