米Googleは5月14日(現地時間)、テクノロジーカンファレンス「Google I/O 2024」でビデオ生成AIモデル「Veo」を発表した。

今年2月にOpenAIが発表したビデオ生成AI「Sora」と同様、高品質で詳細な表現、クリエイターが活用できるような高度なクリエイティブ・コントロールを可能にする。新しい実験的ツール「VideoFX」で使用でき、数週間中に一部のクリエイターがアクセスできるようになる。14日にAI Test Kitchenで、利用希望者の順番待ちリストへの登録受付が開始された(米国の18歳以上)。将来的には、Veoの機能の一部をYouTube Shortsやその他の製品に導入する予定である。

Veoは、テキストプロンプトから1080pのビデオクリップの生成を可能にする。プロンプトのニュアンスやトーンを正確に捉え、タイムラプスや風景の空撮など、多様なシネマティックエフェクトのプロンプトを理解する。

Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、LumiereといったGoogleのこれまでのビデオ生成モデルやトランスフォーマー・アーキテクチャ、そしてGeminiを基盤としており、詳細なキャプションを追加したビデオで学習させた。自然言語と視覚的セマンティクスの高度な理解により、Veoはプロンプトに正確かつ詳細に従って、複雑なシーンの細部をレンダリングする。

さらに、高品質で圧縮された潜在変数(latents)を活用することで、生成プロセスを効率化し、生成されるビデオの品質を高め、処理時間を短縮している。

生成するビデオクリップは60秒またはそれ以上に延長でき、1つのプロンプトだけでなく、一連のプロンプトを与えることでストーリーを語ることもできる。画像生成と異なり、ビデオ生成ではオブジェクトや被写体の空間における位置や、時間の経過を理解する必要がある。シーンやキャラクターが変形したり、ちらつきやジャンプが発生することが課題となっているが、Veoの潜在拡散トランスフォーマーは、そうした不一致を目立たなくし、キャラクター、オブジェクト、スタイルの一貫性を維持する。

動画や画像も入力でき、それらにテキストプロンプトを組み合わせられる。たとえば、「晴れた日の海岸線をドローンで空撮する」動画を生成し、それを入力ビデオにテキストプロンプトでカヤックを追加することで、海岸線にカヤックが浮かぶビデオに仕上げることができる。画像とテキストプロンプトを組み合わせると、Veoは入力画像のスタイルを参照しながらテキストプロンプトの指示に従った動画を生成する。マスク編集もサポートしており、ビデオとテキストプロンプトにマスク領域を追加すると、ビデオの特定領域を変更できる。