Google DeepMindは1月29日(米国時間)、ワールドモデルの実験的な研究プロトタイプ「Project Genie」の一般提供を開始した。自然言語や画像の入力から、インタラクティブな仮想世界(3D空間)を生成し、ユーザーはその中を自由に移動できる。まずは米国のGoogle AI Ultra加入者を対象に段階的に展開し、今後ほかの地域にも拡大する予定である。
ワールドモデルとは、AIが環境の構造や物理法則を内部表現として学習し、そのモデルを用いて状態の変化や将来の結果を予測・シミュレーションする技術である。文章や画像・動画の生成に続く次の生成AIの発展分野として、研究機関や企業から注目を集めている。
Project Genieは、ワールドモデルを身近な体験として提供するWebアプリであり、公開された新版はGoogleの最新のワールドモデル「Genie 3」を基盤としている。
このプロトタイプには、大きく分けて3つの機能が用意されている。AIは過去に学習した膨大なデータを基に、空間内の物体配置や動きのつながりといった一貫性を推定し、ユーザーの操作に応じて世界をリアルタイムに生成し続ける。前方へ進めば進行方向の風景を補完し、視点を変えれば周囲の景色を描き直す。
- 世界のスケッチ(World Sketching): 仮想空間やキャラクターの条件を指定し、世界の土台を生成する。画像生成モデル「Nano Banana Pro」と連携しており、生成前にビジュアルを調整することで、意図に近い世界を作成できる。一人称視点や三人称視点など、表示方法も選択可能である。
- 自由な探索(World Exploration): 生成された世界は、キーボード操作によって歩き回れる。ユーザーの移動や視点変更に応じ、AIが周囲の環境をその場で生成する。
- 世界のリミックス(World Remixing): 既存の世界の設定やプロンプトを変更し、異なる解釈を加えた世界を再生成できる。ギャラリーに公開された他のユーザーの世界を基に、新たな環境を作ることも可能。探索の様子は動画として保存できる。
Google DeepMindは、ワールドモデルをAGI(人工汎用知能)実現に向けた重要な研究要素の一つと位置付けている。人間のように柔軟に状況を理解し行動するAIを構築するには、物理法則や物体同士の関係性を学習できるシミュレーション環境が欠かせない。将来的には、ロボットの行動学習用環境をはじめ、映像制作、実在・架空の場所や歴史的環境の探索、教育向けコンテンツ生成など幅広い用途を想定している。
一方で、現時点では制約も多い。ワールドモデルはリアルタイム推論に大量の計算資源を要するため、Project Genieは1回あたりの生成・探索時間が最大60秒に制限されている。また、昨年8月に言及されていた探索中に世界の展開を指示する機能など、一部の構想は今回のプロトタイプには含まれていない。表現面でも、写実性や物理挙動の正確さ、キャラクター操作の安定性には課題が残るという。同社は、利用者からのフィードバックを基に、表現品質や操作性の改善を進める方針である。


