富士通は12月2日、Physical AI(フィジカルAI)の研究を発展させるべく、同社のコンピュータビジョン技術をベースとして、人とロボットの相互作用を予測できる「空間World Model技術」を開発したことを発表した。

この技術により、空間内の人やロボットや物体の未来の状態を予測して、従来では困難であった人とロボットの協調動作と、複数ロボット間の最適な協調動作が実現できるという。

  • 空間World Modelの概要図

    空間World Modelの概要図

Physical AIの課題と富士通のAI技術の強み

近年はAIに物理法則を学習させて自律行動させる、フィジカルAIの研究が着目されている。フィジカルAIは自動運転やスマートファクトリーなど、実空間でのさまざまな課題の解決に貢献する技術として期待されており、深刻化する労働力不足への対応や産業の生産性向上に向けて注目が集まっている。

しかし、現在のフィジカルAIは、通路が規定された製造現場や物流倉庫など整備された環境での活用が中心であり、人が生活する住宅やオフィスでは人の動きが予測困難で物の配置も頻繁に変化するため空間の状況把握が難しく、適応が困難という課題がある。また、多数の人やロボットが共存する環境では、他者がどう動くのか次の行動を予測できず、協調動作の実現が難しい。

富士通はこれまで、商業施設での人流解析や、防犯分野での異常行動検出など、空間を把握するコンピュータビジョン技術ならびに人と協調して自律的に業務を推進する「Fujitsu Kozuchi AI Agent」など、デジタル領域でのAI技術を発展させてきた。

これらのAI・コンピュータビジョン技術を応用してフィジカルAIに関する研究を発展させるべく、同社は2025年4月に「空間ロボティクス研究センター」を設立。人とロボットが協調する新しい社会の実現に向けた研究を本格的に開始した。

同研究センターの成果として、複雑な実空間を把握するコンピュータビジョン技術をベースに実用的なフィジカルAIを実現する空間World Model技術を開発した。空間全体のリアルタイムでのWorld Model構築により、整備されていない一般的な環境であっても、人とロボットの協調動作や、複数ロボット間の協調動作が可能となる。

空間World Model技術の特長

空間World Model技術は、人、ロボット、モノの相互作用に着目した3Dシーングラフで空間World Modelを構築する技術。一般環境では人やロボットが移動するなど、空間の状況が動的に変化するため、空間全体を把握するために防犯カメラやロボットカメラを統合する技術が検討されてきたが、各カメラで捉えられる範囲や、固定型カメラと移動型カメラでの見た目(歪みなど)の差異が大きく、動的に変化する空間をリアルタイムに把握することは困難とされる。

そこで、見た目の差異の影響を受けやすい画素単位での統合ではなく、人やロボットといった物体をベースに空間カメラとロボットカメラを統合して、視野や歪みなどの影響をおさえつつ、空間全体を把握できる技術を開発した。これにより、複雑に変化する実空間をリアルタイムに把握できる。

また、空間World Modelで人やロボットやモノの相互作用をモデリングし、起こり得る行動を推定して未来の状態を予測する技術も開発した。人やロボットが協調するためには、相手の行動だけでなく、行動の背景にある意図を推定して未来の行動を予測する必要がある。

ロボットの周囲の変化を予測して自身の行動を決めるWorld Model技術が研究されているが、目の前の環境しかモデル化できず、空間中の人やロボットの状況変化を捉えることは難しかったという。

そこで、空間における人、ロボット、モノの3Dシーングラフの時系列データを活用して、空間全体のWorld Modelを学習する方式を考案。人、ロボット、モノ間の多様な相互作用性から、複数の行動主体が起こす次の行動を推定することで、対象の空間における未来の状態を予測する。空間内を時系列に予測することで、自律ロボット間の衝突回避や複数ロボット間での最適な協調動作プランの生成などを実現できるとのことだ。