【連載】

機械の目が見たセカイ -コンピュータビジョンがつくるミライ

22 行動認識(3) - Two-stream ConvNets

22/35

今回は、深層学習(Deep Learning)を用いた動作認識についてご紹介します。Deep Learningの一種であるCNN(Convolutional Neural Network)は、第16回の記事で概要を説明していますので、まだ読んでいない方はそちらも読んでみてください。

Two-stream ConvNets

Two-stream ConvNets(参考文献:Karen Simonyan and Andrew Zisserman, “Two-Stream Convolutional Networks for Action Recognition in Videos,” in NIPS 2014)は、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)により、アピアランスの特徴と動きの特徴の両方を抽出することで高精度なAction recognitionを実現しています。

処理の概要は図1のとおりです。Spatial stream ConvNetでは、静止画像を入力とし、画像中の物体や背景のアピアランスの特徴を抽出します。一方、Temporal stream ConvNetでは、オプティカルフローの水平方向成分と垂直成分の系列を入力とし、動きに関する特徴が抽出されます。これらを統合することにより、高い性能でAction recognitionを実現しています。

図1 Two-Stream ConvNetsの概要

図2は、オプティカルフローの算出結果の例です。連続するフレーム間のオプティカルフローの水平方向成分と垂直方向成分を求め、その水平方向成分と垂直方向成分をそれぞれ入力のチャネルに割り当てます。つまり、Lフレームのオプティカルフロー系列を求めたとすると、入力は合計2Lチャネルとなります。このとき、図2のように水平方向成分、垂直方向成分は、画像と同じ2次元配列であるためSpatial stream ConvNetの枠組みをそのまま適用することができます。

図2 オプティカルフローの算出結果の例

Trajectory-Pooled Deep-Convolutional Descriptors

Trajectory-Pooled Deep-Convolutional Descriptors(TDD)という手法があります(参考文献:Limin Wang, Yu Qiao, and Xiaoou Tang, “Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors,” in CVPR2015)。TDDは、前述のTwo-stream ConvNetsと、第20回で紹介したDense trajectoriesの改良版であるimproved trajectories(iDT)を融合した手法です。

TDDの概要は、図3のとおりです。上段がiDTで、下段がTDDです。iDTでは、trajectory近傍の領域からHOG、HOF、MBHといった人手により設計した特徴量を求めていました。一方、TDDでは、Two-stream ConvNetsの枠組みを用いて特徴量マップを求め、trajectory近傍の領域の特徴量をPoolingします。TDDを用いることで、iDTよりも精度の高いAction recognitionを実現できます。さらに、TDDとiDTの両方を用いることで更なる性能向上に成功しています。

図3 Trajectory-Pooled Deep-Convolutional Descriptorsの概要

動作認識、動画像の分類に興味のある方は、参考文献を読んでみてください!

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

現在は、日立製作所を退職し、東京大学大学院博士課程に在学中。一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。また、大学院での研究の傍ら、フリーランスとしてコンピュータビジョン技術の研究開発に従事している。

専門:コンピュータビジョン、機械学習

22/35

インデックス

連載目次
第35回 領域分割(2) - Mean Shift法を用いたImage Segmentation
第34回 領域分割(1) - 概要編
第33回 見えないものを観る(3) - 目に見えない光「赤外線」を観る
第32回 見えないものを観る(2) - 絵画の下書きを観る
第31回 見えないものを観る(1) - 映像から音を復元する
第30回 動く人・物を追跡する(4) - OpenCVのトラッキング手法(後編)
第29回 動く人・物を追跡する(3) - OpenCVのトラッキング手法(中編)
第28回 動く人・物を追跡する(2) - OpenCVのトラッキング手法(前編)
第27回 動く人・物を追跡する(1) - OpenCVによるトラッキング
第26回 インターネット上の画像群からTime-lapse映像を自動生成する手法の概要
第25回 一人称視点(3) - Social Saliency
第24回 一人称視点(2) - Social Interaction
第23回 一人称視点(1) - 概要
第22回 行動認識(3) - Two-stream ConvNets
第21回 行動認識(2) - 動きの特徴量(HOF、MBH)
第20回 行動認識(1) - Dense Trajectories
第19回 視線計測(3) - カメラのみを用いた視線計測
第18回 視線計測(2) - 近赤外の点光源を用いた視線計測
第17回 視線計測(1) - 導入編
第16回 コンピュータビジョン分野における機械学習(4) - Deep Learning
第15回 コンピュータビジョン分野における機械学習(3) - 識別器
第14回 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出
第13回 コンピュータビジョン分野における機械学習(1) - 導入編
第12回 コンピュータビジョン分野の市場分析(1) - 自動車編
第11回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(2)
第10回 カメラを用いた3次元計測(4) - Structure from Motion
第9回 カメラを用いた3次元計測(3) - サブピクセル推定
第8回 カメラを用いた3次元計測(2) - ステレオカメラ
第7回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(1)
第6回 カメラを用いた3次元計測(1)
第5回 意外と知らないカメラキャリブレーション
第4回 ハードウェアの基礎知識
第3回 コンピュータビジョンの要素技術と応用範囲(後編)
第2回 コンピュータビジョンの要素技術と応用範囲(前編)
第1回 普及期に入ったコンピュータビジョン

もっと見る



人気記事

一覧

イチオシ記事

新着記事