Googleは5月19日(米国時間)、開発者会議「Google I/O 2026」において、新たなマルチモーダルAIファミリー「Gemini Omni」を発表した。画像・音声・動画・テキストを組み合わせた入力を受け取り、Geminiが持つ実世界の知識を踏まえた高品質なコンテンツ生成を可能にする。まずは動画を対象に提供を開始し、将来的には画像や音声などの出力にも対応する計画である。Google DeepMindのCTO兼GoogleのChief AI Architectを務めるKoray Kavukcuoglu氏は公式ブログで、画像生成・編集モデル「Nano Banana」で築いてきた方向性を動画へ拡張する「次のステップ」と説明している。

Gemini Omniは、Googleが初期のGeminiから掲げてきた「真のマルチモーダル」という構想の延長線上にある。従来のように複数の専門モデル(テキストから画像、画像から動画など)を組み合わせて処理するのではなく、複数のモダリティを一つの文脈として扱い、入力同士の関係を踏まえて出力を生成する。

動画生成においては、これまでのモデルがテキストや画像から映像を作る用途に重点を置いていたのに対し、Omniは画像、音声、動画、テキストを横断的に参照し、それらを統合した動画を生成できる。Googleによれば、Geminiの知識や推論能力と、メディア生成モデルの表現力を組み合わせることで、実世界の物理法則(重力、運動エネルギー、流体力学など)や、歴史、生物学、科学、文化的な背景、物語の論理性を踏まえた映像のシミュレーションが可能になる。Googleはこの方向性を、AIがテキストの予測から現実世界のシミュレーション(ワールドモデル)へと進む段階の一歩として位置づけている。

Omniを用いることで、対話(自然言語)による段階的な動画編集が可能になる。過去の指示内容や映像内の文脈を維持しながら、対話を重ねて動画を編集・改善できる。公式ブログでは以下のような実例が紹介されている。

  • 映像のスタイル変更:鏡に触れる男性の映像に対し、「鏡が液体のようになびくようにして」「背景を3Dのボクセルアートに変えて」と段階的に指示を出し、キャラクターや環境の一貫性を保ったまま映像を変化させる。
  • 音声との同期:テクノミュージックのビートに合わせて、アパートの窓の明かりが順次点灯していく動画を生成する。
  • 教育コンテンツの作成:「タンパク質の折りたたみを解説するクレイアニメ」という短い指示から、ストップモーション調の映像と、アミノ酸の鎖がアルファヘリックスやベータシートへと折りたたまれる過程を説明するナレーションが同期した解説動画を作成する。

Googleは、Omniファミリーの第1弾となる「Gemini Omni Flash」の提供を同日より開始した。対象はGoogle AIの「Plus」「Pro」「Ultra」各サブスクリプションプランの契約者で、GeminiアプリおよびGoogle Flowで利用できる。YouTube ShortsとYouTube Createアプリでも、無料での提供が今週中に始まる。開発者・法人向けのAPI提供は「数週間以内」とされている。

また、「Flash」を上回る性能を持つ、プロのクリエイターやエンタープライズ向けの「Gemini Omni Pro」も近日中に提供となる予定だ。