【連載】

機械の目が見たセカイ -コンピュータビジョンがつくるミライ

20 行動認識(1) - Dense Trajectories

20/44

第14回の記事で、機械学習を用いて画像から顔・人を検出する技術をご紹介しましたが、動画像中から人物の行動を認識する技術もあります。今回は、その行動認識のために開発された「Dense Trajectories」(参考文献:H. Wang, A. Klaser, C. schmid, and C. Liu, “Action Recognition by Dense Trajectories”, in CVPR2011)をご紹介したいと思います。

Dense Trajectoriesとは?

簡単に言うと、密な特徴点追跡と特徴記述の2つの要素技術からなります。特徴点追跡によって得られる、密な特徴点の軌跡を用いることから、Dense Trajectoriesと呼ばれています。

密な特徴点追跡

Dense Trajectoriesでは、フレーム間(時刻tと時刻t+1)のOptical Flow(各特徴点のフレーム間の動き)を計算し、得られたOptical Flowを時系列方向に連結していくことで特徴点の軌跡を得ます。

具体的には、映像を段階的に縮小することで解像度の異なる複数の画像系列を生成し、その各解像度の画像系列ごとにOpenCVにも実装されているFarneback Optical Flowを用いて時刻tと時刻t+1の間のOptical Flowを計算します。そして、Median FilterによりフィルタリングしたOptical Flowを連結していくことで、特徴点のTrajectory(軌跡)を生成します(動画1の下段)。

<動画1 Dense trajectories>

特徴記述

得られたTrajectoryごとに特徴量を抽出します。具体的には図1のとおり、各Trajectoryの周辺領域から、局所特徴量であるHistograms of Oriented Gradients(HOG)、Histograms of Optical Flow(HOF)、Motion Boundary Histograms(MBH)、さらに特徴点の軌跡の形状特徴を求めます。HOGについては、本連載の第14回でご紹介しました。HOF、MBHについては、フレーム間の動きの情報をヒストグラム化した特徴です。次回以降にご紹介したいと思いますので、今回は概要だけ説明すると、HOFは、Optical Flowの方向・強度をヒストグラム化した特徴量です。MBHは、密なOptical Flowを空間方向(横軸方向、縦軸方向)に微分した結果から、HOGと同じ枠組みでヒストグラム特徴を生成します。そして、軌跡の形状特徴には、時刻tと時刻t+1の間のオプティカルフローの変化量を用います。

図1 Dense Trajectoriesの特徴記述(出典:H. Wang, A. Klaser, C. schmid, and C. Liu, “Action Recognition by Dense Trajectories”, in CVPR201)

Dense Trajectoriesによる行動認識

そして、各Trajectoryから取得した局所特徴量から、Bag-of-wordsやFisher Vectorにより特徴量ベクトルを生成し、SVMなどの機械学習を用いて人物の行動を認識します。このDense Trajectoriesを用いることで、歩く、走る、サイクリング、握手などの行動を高精度に認識することが可能となります。しかし、いくつか欠点もあります。ひとつ目は、行動の速さが異なると得られる特徴量が変化してしまうことです。2つ目は、動作の方向が逆の場合に同じ特徴量が得られないことがあげられます。そして3つ目は、カメラ位置(人の行動を撮影している角度)が変わると得られる特徴が変化するため性能が低下することです。Dense Trajectoriesを利用する際は、これらの欠点を考慮して設計するようにしましょう。

Dense Trajectoriesのコードは公開されています。興味のある方は、ダウンロードして試してみてください!

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

現在は、日立製作所を退職し、東京大学大学院博士課程に在学中。一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。また、大学院での研究の傍ら、フリーランスとしてコンピュータビジョン技術の研究開発に従事している。

専門:コンピュータビジョン、機械学習

20/44

インデックス

連載目次
第44回 ディープラーニングの基礎(3) - 回帰・2クラス分類・多クラス分類の出力層
第43回 ディープラーニングの基礎(2) - 活性化関数
第42回 ディープラーニングの基礎(1) - ニューラルネットワークとは
第41回 領域分割(4) – CNNによるSemantic Image Segmentation
第40回 ハードウェアの基礎知識(4) - GPGPU
第39回 ハードウェアの基礎知識(3) - レンズ
第38回 ハードウェアの基礎知識 (2) - 電子シャッター
第37回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(3)
第36回 領域分割(3) - CRFを用いたSemantic Image Segmentation
第35回 領域分割(2) - Mean Shift法を用いたImage Segmentation
第34回 領域分割(1) - 概要編
第33回 見えないものを観る(3) - 目に見えない光「赤外線」を観る
第32回 見えないものを観る(2) - 絵画の下書きを観る
第31回 見えないものを観る(1) - 映像から音を復元する
第30回 動く人・物を追跡する(4) - OpenCVのトラッキング手法(後編)
第29回 動く人・物を追跡する(3) - OpenCVのトラッキング手法(中編)
第28回 動く人・物を追跡する(2) - OpenCVのトラッキング手法(前編)
第27回 動く人・物を追跡する(1) - OpenCVによるトラッキング
第26回 インターネット上の画像群からTime-lapse映像を自動生成する手法の概要
第25回 一人称視点(3) - Social Saliency
第24回 一人称視点(2) - Social Interaction
第23回 一人称視点(1) - 概要
第22回 行動認識(3) - Two-stream ConvNets
第21回 行動認識(2) - 動きの特徴量(HOF、MBH)
第20回 行動認識(1) - Dense Trajectories
第19回 視線計測(3) - カメラのみを用いた視線計測
第18回 視線計測(2) - 近赤外の点光源を用いた視線計測
第17回 視線計測(1) - 導入編
第16回 コンピュータビジョン分野における機械学習(4) - Deep Learning
第15回 コンピュータビジョン分野における機械学習(3) - 識別器
第14回 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出
第13回 コンピュータビジョン分野における機械学習(1) - 導入編
第12回 コンピュータビジョン分野の市場分析(1) - 自動車編
第11回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(2)
第10回 カメラを用いた3次元計測(4) - Structure from Motion
第9回 カメラを用いた3次元計測(3) - サブピクセル推定
第8回 カメラを用いた3次元計測(2) - ステレオカメラ
第7回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(1)
第6回 カメラを用いた3次元計測(1)
第5回 意外と知らないカメラキャリブレーション
第4回 ハードウェアの基礎知識
第3回 コンピュータビジョンの要素技術と応用範囲(後編)
第2回 コンピュータビジョンの要素技術と応用範囲(前編)
第1回 普及期に入ったコンピュータビジョン

もっと見る



人気記事

一覧

イチオシ記事

新着記事