東京大学(東大)は10月20日、日本語などのヒトが日常的に使う自然言語での指示で、ロボットが物体の把持(つかみ移動させること)を可能にする新たなAIシステム「GraspMAS」を開発したと発表した。

  • 従来の単一モデルとGraspMASの把持動作の比較

    従来の単一モデル(a)と、Planner(プランナー)、Coder(コーダー)、Observer(オブザーバー)の協調によるGraspMAS(b)の把持動作の比較(出所:東大プレスリリースPDF)

同成果は、東大大学院 情報理工学系研究科のタ・デゥックトゥン助教が参加する国際共同研究チームによるもの。詳細は、中国・杭州で10月19~25日に開催されたIEEE/RSIによる知能ロボット・システムに関する国際会議「IROS 2025」にて口頭発表された。

複数のAIエージェントが協調し高性能を実現

ヒトは五指を使い、形状、サイズ、柔らかさなど、多岐にわたる物体の把持と移動を容易に行う。具体的には、硬くて重い物体はしっかりと、柔らかくて壊れやすい物体は握力や掴み方を調整することで対応可能だ。

その要因として、ヒトの表皮には高性能なセンサが備わり、特に指先は神経が集中しているため、繊細な力加減が可能になる。しかし、ロボットハンドの指にヒト並みの接触センサを搭載するのは容易ではなく、結果として、ヒトのように1種類の手先で多彩な把持性能を発揮するものは、いまだ少ないのが現状だ。

これまでのロボットハンドは、特定のデータセットを用いた学習済み単一モデルに依存しているため、指示には複雑で専門的な言語を用いる必要があり、また未学習の環境への対応を苦手とするなどの課題を抱えていた。この課題を解決すべく、研究チームは今回、複数のAIエージェントに協調して動作させることで、ユーザが日常的に使う自然言語による命令を逐次的に処理して実行できるシステムを開発したという。

今回開発されたシステム「GraspMAS」では、「Planner(プランナー)」「Coder(コーダー)」「Observer(オブザーバー)」という3種類のAIエージェントが協調して動作することが特徴だ。これらのAIエージェントは連携し、ユーザからの自然言語命令を逐次的に処理する。各AIエージェントの役割は以下の通りだ。

  • Planner:自然言語命令を分解し、空間的推論を含む把持計画を構築
  • Coder:視覚と言語の認識モデルと連携し、適切なコードを生成・実行
  • Observer:得られた結果を評価し、安全でないつかみ方を検出した上で、システム全体にフィードバックを返す

さらに、GraspMASでは、事前学習なしにユーザが新たに入力した命令にも柔軟に対応できる「ゼロショット把持」も実現された。ゼロショットとは、対象についての事前学習がないにも関わらず、AIモデルが新しい状況に対応する能力を指す。

今回の実験では、「赤いマグカップの近くにある紫のボールをとって」「奥にあるドライバーを持ち手の部分で取って」といった指示に正確に応答し、実世界のタスクに適用可能であることが実証された。その実験結果の詳細は以下の通りで、従来の単一モデルを大幅に上回る結果となったとした。なお、ここで用いられた「GraspAnything++」と「OCID-VLG」は、いずれも言語指示によるロボット把持性能を評価するための大規模なデータセットだ。

実験結果

  • 評価データセットでゼロショットの把持の検出
    GraspAnything++:成功率0.68
    OCID-VLG:成功率0.62
  • 実世界環境でゼロショットの把持の検出
    単一の物体:成功率0.80
    複数の物体が散乱した環境:成功率0.76
  • シミュレーションと実ロボットによる言語駆動型把持の様子

    シミュレーション(a)と実ロボット(b)による言語駆動型把持の様子(出所:東大プレスリリースPDF)

今回の技術をさらに進展させることで、家庭内サービスにおいてカジュアルな音声指示を理解するロボットや、物流倉庫で文脈に応じた作業を行うロボット、さらには医療や研究施設で安全に補助作業を行うロボットの実現が期待されるとする。また、GraspMASはツールベースのモジュラーアーキテクチャを採用しており、新しいAIモデルの追加や統合、更新も容易だ。AI技術の発展に合わせ、システム全体の機能を向上し続けられる設計となっていることも特徴となっている。

  • GraspMASが把持を計画・修正していく仕組み

    GraspMASが結果を確認しながら把持を計画・修正していく仕組み(出所:東大プレスリリースPDF)

現在、研究チームは産業応用に向けて、推論時間の短縮、物体が密集した環境での性能向上、そしてオープンソースでのコード公開によるコミュニティ主導の開発支援に取り組んでいるとしている。