Googleは9月26日、インテリジェントかつ汎用的なロボットの実現に向け、高度な思考力にもとづき、自律的にタスクを遂行し、エージェント体験を可能にする「Gemini Robotics 1.5」「Gemini Robotics-ER 1.5」の2つの新しいモデルを発表した。

「Gemini Robotics 1.5」と「同ER 1.5」の概要

Gemini Robotics 1.5は高性能な視覚・言語・行動(VLA)モデルで、視覚情報と指示をロボットがタスクを実行するための具体的な動作命令に変換。行動を起こす前に思考し、そのプロセスを可視化し、ロボットが複雑なタスクを透明性の高い形で評価し、完了するのを支援する。また、複数の機体を横断して学習できるため、スキル習得を加速させるという。

Gemini Robotics-ER 1.5は高性能な視覚・言語モデル(VLM)となり、物理世界について推論し、ネイティブにデジタルツールを呼び出し、ミッションを完了するための詳細な多段階の計画を作成。現在、空間理解のベンチマーク全体で最先端のパフォーマンスを達成しているとのこと。

  • Gemini Robotics-ER 1.5 の物体検出、状態推定、セグメンテーションマスク、ポインティング、軌道予測、タスクの進捗と成功の推定などの能力

    2Gemini Robotics-ER 1.5 の物体検出、状態推定、セグメンテーションマスク、ポインティング、軌道予測、タスクの進捗と成功の推定などの能力

これらのモデルは開発者が高性能で多用途なロボットを構築するのに役立ち、環境を能動的に理解し、複雑で多段階にわたるタスクを状況に応じて柔軟に遂行できるという。9月26日から「Google AI Studio」を通じて、Gemini Robotics-ER 1.5の利用が可能なほか、Gemini Robotics 1.5に関しては、現在一部のパートナー企業に提供を開始している。

ユースケースとしては、例えば「この地域のルールに合わせて、目の前のゴミを分別して」とロボットに頼んだ場合、指示を完遂するためにロボットはインターネットで地域の分別ガイドラインを検索する。

目の前のゴミが何であるかを認識し、ルールにもとづいて、それぞれの分別方法を判断しなければならないことに加え、それらを実際に正しいゴミ箱へ捨てるという一連の行動を、すべて実行する必要がある。このように、複雑で多段階のタスクをロボットが最後まで遂行できるように、2つのモデルが連携して自律的に思考・行動する、新たなフレームワークを設計した。

2つのモデルが実現するユースケースと応用例

Gemini Robotics-ER 1.5はエンボディド・リーズニングモデル(身体性推論モデル:実世界における物理的な状況を理解し推論する能力)であり、ロボット全体の頭脳のように機能し、すべての活動を統括。物理世界の状況を的確に把握する最先端の空間認識能力を活かし、論理的な意思決定と計画立案に優れているという。

人間と自然な言葉で対話し、タスクの成功率や進捗を予測するだけでなく、必要に応じてGoogle 検索のようなツールで情報を集めたりサードパーティのユーザー定義関数を使用したりすることを可能としている。

また、導き出した計画をステップごとに自然言語の指示に変換し、Gemini Robotics 1.5へと伝え、視覚と言語の理解能力を用いて、具体的なアクションを直接実行。自らの行動について思考することで、意味が複雑なタスクを巧みに解決するだけでなく、思考プロセスを人間に言葉で説明することもできるため、ロボットの意思決定の透明性が高まるとのことだ。

  • 2つのモデルが連携している図

    2つのモデルが連携している図

両モデルは、中核となるGeminiモデルファミリーを基盤とし、それぞれの役割に特化するよう異なるデータセットでファインチューニングされており、連携させることでロボットがより長いタスクや多様な環境に汎化する能力が高まるという。

Gemini Robotics-ER 1.5は、エンボディド推論に特化して最適化された、初の思考モデルとなり、テスターが協力するプログラムを通じて、現実世界のさまざまなユースケースを反映させて開発している。性能を検証するため、Embodied Reasoning Question Answering(ERQA)やPoint-Benchをはじめとした15の学術的ベンチマークを用いた評価を実施し、ポインティング(指示)、画像やビデオの内容に関する質疑応答といった能力を測定した。

  • 類似モデルと比較した、Gemini Robotics-ER 1.5 の最先端のパフォーマンス結果を示す棒グラフ

    類似モデルと比較した、Gemini Robotics-ER 1.5 の最先端のパフォーマンス結果を示す棒グラフ

一方、Gemini Robotics 1.5は単に指示を変換するだけでなく、行動を起こす前に自ら思考することができる。複数の手順や深い意味の理解が求められるタスクに対し、自然言語で内的な推論と分析で思考プロセスを組み立て、その上で行動に移す。

例えば「洗濯物を色分けして」というタスクを与えられた場合、ロボットは異なるレベルで思考する。まず「色分け」とは白い服は白いカゴへ、それ以外の色の服は黒いカゴへ入れることだと、タスク全体の目的を理解。

次に「赤いセーターを拾い上げ、黒いカゴに入れる」といった具体的なステップを考え、そして「セーターを掴みやすくするために、一度手前に引き寄せる」など、各ステップを実行するための細かな動作レベルまで考えるという。

多層的な思考プロセスを通じて、視覚・言語・行動モデルは長いタスクをロボットが確実に実行できるような、シンプルで短い単位へと分解することを自ら判断。モデルが未知のタスクに対応する能力や、周囲の環境変化に対する堅牢性を高める上でも重要な役割を果たすとのこと。

安全性と責任あるAI開発への取り組み

ロボットは形状、サイズ、センサ、関節の自由度などが一体一体が異なるため、あるロボットで学習したスキルを別のロボットに応用することは、これまで課題となっていた。Gemini Robotics 1.5は、異なる機体(エンボディメント)を横断して学習する能力を有し、新しい機体ごとにモデルを特化させる必要なく、あるロボットで学習した動きを別のロボットに移転できる。

実際に、トレーニングでは「ALOHA 2」ロボットにのみ提示されたタスクが、Apptronikのヒューマノイドロボット「Apollo」や「Franka」ロボットでもそのまま機能すること、そしてその逆も同様であることを観測した。

そのほか、専門組織であるResponsibility & Safety Council(RSC)やResponsible Development & Innovation(ReDI)チームがロボティクスチームと緊密に連携し、開発されるすべてのモデルがGoogleのAI原則を遵守するようにしている。

Gemini Robotics 1.5は、高度な意味論的推論を通じて、安全性への多角的なアプローチを実装しており、具体的には行動を起こす前にまず安全性を自ら思考すること、GoogleのGemini Safety Policiesに準拠し人間との敬意ある対話を保つこと、そして必要に応じて衝突回避などの物理的な安全サブシステムを作動させることなどが含まれる。

さらに、AIの意味論的安全性を評価・改善するために設計された包括的なデータセットであるASIMOVベンチマークのアップグレード版を公開し、テールカバレッジの向上、アノテーションの改善、新たなタイプの安全性に関する質問、ビデオフォーマットへの対応などが含まれている。

Gemini Robotics 1.5は、単にコマンドに反応するだけのモデルから、自ら推論し、計画を立て、ツールを使いこなし、未知の状況にも対応(汎化)する自律的なシステムの構築を目指す。