【連載】

機械の目が見たセカイ -コンピュータビジョンがつくるミライ

25 一人称視点(3) - Social Saliency

25/44

今回は、複数の人物が存在するシーン中で、どこのエリアが人々の注意を集め得るかを推定する、Social Saliency Predictionについて紹介します(参考文献: Park and Shi, “Social Saliency Prediction”, CVPR’15)。

Joint attention

まずは、Social Saliency Predictionの関連研究について触れておきます(参考文献:Park, Jain, and Sheikh, “3D Social Saliency from Head-mounted Cameras”, NIPS’12)。この研究では、図1のように複数の人物が存在するシーン中で、全員がカメラを頭部に装着していることを前提として、複数の人物がどのエリアを同時に見ているか(Joint Attentions、Gaze Concurrences)を推定する手法を提案しています。各カメラから得られた画像系列を入力とし、SfM(Structure from Motion)の技術を用いて各カメラの位置、姿勢を求めます。その結果から、図2のように3次元空間中のどのエリアを同時に見ているかを推定できます。

図1 “3D Social Saliency from Head-mounted Cameras”の概要

図2 複数のHead-mounted Cameraを用いたJoint Attentionの推定結果

Social Saliency Prediction

先に述べた複数のHead-mounted Cameraを用いたJoint Attentionの推定結果を学習データとして用い、人の位置とJoint Attentionの関係性を学習します。具体的には、人物間の相対的位置を特徴量とし、Joint Attentionとの距離が閾値以内の位置をPositive、閾値以上の位置をNegativeとして、2クラスのアンサンブル分類器を学習します。

Joint Attention推定時は、1台のHead-mounted CameraからSfMを用いて複数の人を検出し、位置を求めます。そして、その複数の人の位置を入力として、学習済みの分類器を用いてJoint Attentionを推定します(図3、動画1)。この手法では、検出した人の視線方向、頭部の方向を求める必要はなく、位置のみからJoint Attentionを推定することができます。画像中から人を検出し、視線方向または頭部の方向を求めることは技術的には可能ですが、安定かつ高精度に求めることが難しいため、位置のみから推定できるというのは大きなメリットです。

図3 人の位置関係からのSocial Saliencyの推定

<動画1 Social Saliency Predictionの結果>

学習には複数のHead-mounted Cameraを用いていますが、実際にSocial Attentionを求めるときは1台のカメラのみあれば推定できます。店舗内の人の注視領域の推定など、いろいろ応用できるかもしれません。

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習

25/44

インデックス

連載目次
第44回 ディープラーニングの基礎(3) - 回帰・2クラス分類・多クラス分類の出力層
第43回 ディープラーニングの基礎(2) - 活性化関数
第42回 ディープラーニングの基礎(1) - ニューラルネットワークとは
第41回 領域分割(4) – CNNによるSemantic Image Segmentation
第40回 ハードウェアの基礎知識(4) - GPGPU
第39回 ハードウェアの基礎知識(3) - レンズ
第38回 ハードウェアの基礎知識 (2) - 電子シャッター
第37回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(3)
第36回 領域分割(3) - CRFを用いたSemantic Image Segmentation
第35回 領域分割(2) - Mean Shift法を用いたImage Segmentation
第34回 領域分割(1) - 概要編
第33回 見えないものを観る(3) - 目に見えない光「赤外線」を観る
第32回 見えないものを観る(2) - 絵画の下書きを観る
第31回 見えないものを観る(1) - 映像から音を復元する
第30回 動く人・物を追跡する(4) - OpenCVのトラッキング手法(後編)
第29回 動く人・物を追跡する(3) - OpenCVのトラッキング手法(中編)
第28回 動く人・物を追跡する(2) - OpenCVのトラッキング手法(前編)
第27回 動く人・物を追跡する(1) - OpenCVによるトラッキング
第26回 インターネット上の画像群からTime-lapse映像を自動生成する手法の概要
第25回 一人称視点(3) - Social Saliency
第24回 一人称視点(2) - Social Interaction
第23回 一人称視点(1) - 概要
第22回 行動認識(3) - Two-stream ConvNets
第21回 行動認識(2) - 動きの特徴量(HOF、MBH)
第20回 行動認識(1) - Dense Trajectories
第19回 視線計測(3) - カメラのみを用いた視線計測
第18回 視線計測(2) - 近赤外の点光源を用いた視線計測
第17回 視線計測(1) - 導入編
第16回 コンピュータビジョン分野における機械学習(4) - Deep Learning
第15回 コンピュータビジョン分野における機械学習(3) - 識別器
第14回 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出
第13回 コンピュータビジョン分野における機械学習(1) - 導入編
第12回 コンピュータビジョン分野の市場分析(1) - 自動車編
第11回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(2)
第10回 カメラを用いた3次元計測(4) - Structure from Motion
第9回 カメラを用いた3次元計測(3) - サブピクセル推定
第8回 カメラを用いた3次元計測(2) - ステレオカメラ
第7回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(1)
第6回 カメラを用いた3次元計測(1)
第5回 意外と知らないカメラキャリブレーション
第4回 ハードウェアの基礎知識
第3回 コンピュータビジョンの要素技術と応用範囲(後編)
第2回 コンピュータビジョンの要素技術と応用範囲(前編)
第1回 普及期に入ったコンピュータビジョン

もっと見る



人気記事

一覧

イチオシ記事

新着記事