パナソニックR&Dカンパニー オブ アメリカ(PRDCA)とパナソニック ホールディングス(パナソニックHD)は10月17日、スタンフォード大学の研究者らと共同で、一人称視点の映像や頭部軌道をもとに、現在の動作推定や未来の動作予測を可能にするAI技術「UniEgoMotion」を開発したことを発表した。

  • 一人称視点映像から未来の動作を予測するAIを開発

    一人称視点映像から未来の動作を予測するAIをパナソニックHDが開発(出所:パナソニックHD)

ウェアラブルカメラを用いた“現場可視化”に課題感

パナソニックHDは、1月に米・ラスベガスにて開催されたCES 2025のキーノートスピーチにおいて、AIを活用したビジネスへの変革を推進するグローバルな企業成長イニシアティブ「Panasonic Go」を発表。以来、その趣旨に副たAI開発やプラットフォームの構築に貢献する活動に注力しており、現在では、さまざまな顧客に素早く届く“Scalable AI”と、顧客から求められる高い信頼性に応える“Responsible AI”という2つの軸で、データから実装まで一貫したAI開発プロセスの構築、そしてその高度化に取り組んでいる。

そして今回発表されたのは、Scalable AIを目指す取り組みとして“現場最適化ソリューション”の範囲拡大をターゲットとしたもの。幅広い業界の現場作業をAIによって可視化することで、作業における課題の特定や業務プロセスの標準化を行い、業界を問わず深刻化する人手不足への対策としての業務効率化を実現するのが狙いだという。

特に具体的な対象とされたのは、パナソニックグループとして重要な事業のひとつであるサプライチェーンマネジメント(SCM)だ。同社が提供するSCMソリューションでは、製造ライン上などに固定カメラやセンサを設置し、それらが取得したデータを画像AIにより可視化することで、効率化に繋げているという。しかし現場によっては、空間の制約やコストなどの側面からセンシング機器の設置が困難な現場も存在することから、今回の取り組みでは大規模な設備追加やレイアウト変更を必要とせず、作業者が身に着けた“ウェアラブルカメラ”の情報を用いて現場を可視化することが目指された。

  • UniEgoMotionのモデル構成図

    UniEgoMotionのモデル構成図(出所:パナソニックHD)

意図的に“欠損”させたデータで未来予測を学習

こうした背景から、ウェアラブルカメラで撮影した一人称視点動画をもとにして、現場作業者の動作を推定し作業を可視化する新技術の確立に着手したパナソニックHD。従来手法では、周辺の3Dデータや別のカメラで撮影した3人称視点動画なども追加データとして用いられるのだが、今回は前述の課題を解決するため、ウェアラブルカメラの映像と頭部軌道の情報のみからの動作生成に向けた開発が進められた。

開発を担当した同社 DX・CPS本部 デジタル・AI技術センターの中村拓紀氏によれば、一人称視点動画はユーザーの身体が画角内にほとんど収まらないため、動作生成の難易度は非常に高かったとのこと。しかし今回UniEgoMotionでは、高品質な特徴抽出が可能な画像基盤モデル「DINO v2」ベースの画像エンコーダを活用し、映像からの特徴抽出品質を向上。加えて、AIのデータ学習時に工夫を施すことで、未来の動作などを予測するAIモデルの実現に至ったとする。

その工夫とは、学習データの一部を意図的にマスキング(欠損)すること。通常の動作の再構成であれば、入力動画に対応する学習結果を出力し、動作を可視化する。一方で今回の手法では、動作の未来予測を学習させるため、学習データの一部を意図的に欠損。その後にUniEgoMotionを用いて欠損部分の動作も生成し、欠損なしで再構成した動作と一致度の高い結果を出力できるよう学習させることで、入力動画の有無に依存せず“未来の動作”についても同じモデルで生成できたとしている。

  • マスキングによるタスク学習手法

    マスキングによるタスク学習手法の概要(出所:パナソニックHD)

高精度かつ自然な映像生成が可能に

なお中村氏は、既存手法とUniEgoMotionの性能を比較した結果、動作の再構成タスクにおいて、ポーズの再現精度や自然さといった手法で従来手法を上回る精度が確認されたとする。

パナソニックHDとしては、今後、同技術の現場作業可視化・効率化への適用範囲拡大に向けた活用に加え、リアルタイム動作解析や現場作業の支援、リハビリ・ヘルスケア分野での動作モニタリングなど、幅広い事業領域における活用が期待されるとしている。

なお今回の発表内容については、10月19日から23日まで米・ハワイ州で開催されるAI・コンピュータビジョンに関する国際カンファレンス「IEEE/CVF International Conference on Computer Vision(ICCV) 2025」に採択され、発表が行われる予定だ。