機械の目が見たセカイ　-コンピュータビジョンがつくるミライ(24) 一人称視点(2) - Social Interaction

今回は、頭部に装着したGoProを用いてアメリカのディズニーランドで長時間撮影した映像から、会話しているシーンを抽出し、会話の種別(1対1か1対多かなど)を推定する手法を紹介します(参考文献: Fathi, Hodgins, and Rehg, “Social Interaction: A First-Person Perspective”, CVPR’12)。

一人称視点映像のメリット・デメリット

まず一人称視点映像のメリットとデメリットを整理したいと思います。メリットには下記があります。

カメラ装着者の見ているシーンを常時撮像できる
カメラ装着者の頭部の動きの計測が容易である
インタラクション対象(人や物)を近距離かつ正面から撮像できる

一方、デメリットは次のとおりです。

カメラ装着者の動きにより、映像全体が動いてしまう。そのため、背景差分による移動物体の検出を用いることができない
映っている人物の動きと背景の動きの分離が難しい

Social Interaction: A First-Person Perspective

Social Interaction: A First-Person Perspectiveの処理の概要は図1のとおりです。まず入力画像(Input Frame)から、カメラ装着者の頭部の動き(First-person Head Movement)を求めます。同時に入力画像から、映像中に映っている人物の顔を検出します(Face Locations in 3D Space)。そして、それらの人物がどこを見ているか(Patterns of Attention)、さらに誰が発話者で、誰が話を聞いているかを推定します(Roles of Individuals)。

図2は、Face Locations in 3D Space、Patterns of Attentionの結果の一例です。一人称視点映像では、カメラ装着者が会話している相手を近距離から撮影できます。この映像中から人物の顔を検出することで、誰がどっちを向いていて、誰が発話者かを推定できるわけです。


図1 処理の概要	図2 顔検出とAttentionの推定結果

そして、動画像の各フレームからこれらの観測値(First-person Head Movement、Patterns of Attentionなど)が得られるので、CRF(Conditional Random Field)を用いて会話の種別(1対1、議論、1対多、歩きながらの1対1、歩きながらの1対多)を推定します。CRFは、系列ラベリングを解くための手法で、構造学習を行うことができる識別モデルです。たとえば文章が入力である場合、どの単語が名詞で、どの単語が動詞かをラベリングするための手法です。そして文章には文法というルールがあるので、単語を個々に名詞か動詞かを識別するのではなく、全体として最適なラベリングを得ます。

動画1は、グループでディズニーランドに行った際の一人称視点映像から、1対1で会話しているシーン、1対多で会話しているシーン、議論しているシーンなどを自動でラベリングした結果です。

＜動画1 会話種別の推定結果＞

このように一人称視点(First-person vision、Egocentric vision)では、カメラ装着者が見ているシーンを常時撮影することができ、かつインタラクション対象を近距離かつ正面から撮影できるため、日常生活の行動を記録、分析することができるのです。

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習

一人称視点(2) - Social Interaction

一人称視点映像のメリット・デメリット

Social Interaction: A First-Person Perspective

著者プロフィール

この連載の前後回

AIが勧める、あなたのための会員限定記事

Windows Updateが一部遅れる可能性、Microsoftのミスが原因

令和時代の採用ブランディング第4回社員と元社員を「味方」にする採用戦略 - リファラルとアルムナイの可能性

2025年第1四半期のエンタープライズSSDベンダ上位5社売上高は前四半期比2桁％減、TrendForce調べ

FLOSFIA、p層の酸化ガリウムパワーMOSFETでノーマリーオフ10A超の動作を実現

翔べH-IIA　技術の粋と不屈の情熱が拓いた宇宙への道第7回民間移管で「三菱重工のロケット」にさらなる打ち上げ能力向上を果たした204型

Wolfspeedが米連邦破産法を申請、ルネサスなどが経営再建を支援

Wolfspeedが米連邦破産法を申請、ルネサスなどが経営再建を支援

FLOSFIA、p層の酸化ガリウムパワーMOSFETでノーマリーオフ10A超の動作を実現

2025年第1四半期のエンタープライズSSDベンダ上位5社売上高は前四半期比2桁％減、TrendForce調べ

ITF World 2025 第4回原子レベルの半導体プロセス制御に重要となるALDとエピ成長技術

Micron、第9世代QLC NANDとモード切替技術採用のPCIe Gen4対応NVMe SSDを発表

OKIアイディエス、Armと提携しFPGAプロトタイピングサービスを開始

このカテゴリーについて

一人称視点(2) - Social Interaction

一人称視点映像のメリット・デメリット

Social Interaction: A First-Person Perspective

著者プロフィール

この連載の前後回

AIが勧める、あなたのための会員限定記事

Windows Updateが一部遅れる可能性、Microsoftのミスが原因

令和時代の採用ブランディング 第4回 社員と元社員を「味方」にする採用戦略 - リファラルとアルムナイの可能性

2025年第1四半期のエンタープライズSSDベンダ上位5社売上高は前四半期比2桁％減、TrendForce調べ

FLOSFIA、p層の酸化ガリウムパワーMOSFETでノーマリーオフ10A超の動作を実現

翔べH-IIA 技術の粋と不屈の情熱が拓いた宇宙への道 第7回 民間移管で「三菱重工のロケット」に さらなる打ち上げ能力向上を果たした204型

Wolfspeedが米連邦破産法を申請、ルネサスなどが経営再建を支援

Wolfspeedが米連邦破産法を申請、ルネサスなどが経営再建を支援

FLOSFIA、p層の酸化ガリウムパワーMOSFETでノーマリーオフ10A超の動作を実現

2025年第1四半期のエンタープライズSSDベンダ上位5社売上高は前四半期比2桁％減、TrendForce調べ

ITF World 2025 第4回 原子レベルの半導体プロセス制御に重要となるALDとエピ成長技術

Micron、第9世代QLC NANDとモード切替技術採用のPCIe Gen4対応NVMe SSDを発表

OKIアイディエス、Armと提携しFPGAプロトタイピングサービスを開始

このカテゴリーについて

令和時代の採用ブランディング第4回社員と元社員を「味方」にする採用戦略 - リファラルとアルムナイの可能性

翔べH-IIA　技術の粋と不屈の情熱が拓いた宇宙への道第7回民間移管で「三菱重工のロケット」にさらなる打ち上げ能力向上を果たした204型

ITF World 2025 第4回原子レベルの半導体プロセス制御に重要となるALDとエピ成長技術