機械の目が見たセカイ　-コンピュータビジョンがつくるミライ(22) 行動認識(3) - Two-stream ConvNets

今回は、深層学習(Deep Learning)を用いた動作認識についてご紹介します。Deep Learningの一種であるCNN(Convolutional Neural Network)は、第16回の記事で概要を説明していますので、まだ読んでいない方はそちらも読んでみてください。

Two-stream ConvNets

Two-stream ConvNets(参考文献:Karen Simonyan and Andrew Zisserman, “Two-Stream Convolutional Networks for Action Recognition in Videos,” in NIPS 2014)は、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)により、アピアランスの特徴と動きの特徴の両方を抽出することで高精度なAction recognitionを実現しています。

処理の概要は図1のとおりです。Spatial stream ConvNetでは、静止画像を入力とし、画像中の物体や背景のアピアランスの特徴を抽出します。一方、Temporal stream ConvNetでは、オプティカルフローの水平方向成分と垂直成分の系列を入力とし、動きに関する特徴が抽出されます。これらを統合することにより、高い性能でAction recognitionを実現しています。

図1 Two-Stream ConvNetsの概要

図2は、オプティカルフローの算出結果の例です。連続するフレーム間のオプティカルフローの水平方向成分と垂直方向成分を求め、その水平方向成分と垂直方向成分をそれぞれ入力のチャネルに割り当てます。つまり、Lフレームのオプティカルフロー系列を求めたとすると、入力は合計2Lチャネルとなります。このとき、図2のように水平方向成分、垂直方向成分は、画像と同じ2次元配列であるためSpatial stream ConvNetの枠組みをそのまま適用することができます。

図2 オプティカルフローの算出結果の例

Trajectory-Pooled Deep-Convolutional Descriptors

Trajectory-Pooled Deep-Convolutional Descriptors(TDD)という手法があります(参考文献:Limin Wang, Yu Qiao, and Xiaoou Tang, “Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors,” in CVPR2015)。TDDは、前述のTwo-stream ConvNetsと、第20回で紹介したDense trajectoriesの改良版であるimproved trajectories(iDT)を融合した手法です。

TDDの概要は、図3のとおりです。上段がiDTで、下段がTDDです。iDTでは、trajectory近傍の領域からHOG、HOF、MBHといった人手により設計した特徴量を求めていました。一方、TDDでは、Two-stream ConvNetsの枠組みを用いて特徴量マップを求め、trajectory近傍の領域の特徴量をPoolingします。TDDを用いることで、iDTよりも精度の高いAction recognitionを実現できます。さらに、TDDとiDTの両方を用いることで更なる性能向上に成功しています。

図3 Trajectory-Pooled Deep-Convolutional Descriptorsの概要

動作認識、動画像の分類に興味のある方は、参考文献を読んでみてください！

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

現在は、日立製作所を退職し、東京大学大学院博士課程に在学中。一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。また、大学院での研究の傍ら、フリーランスとしてコンピュータビジョン技術の研究開発に従事している。

専門:コンピュータビジョン、機械学習

行動認識(3) - Two-stream ConvNets

Two-stream ConvNets

Trajectory-Pooled Deep-Convolutional Descriptors

著者プロフィール

この連載の前後回

Members+ 会員限定記事

Google Geminiの活用方法第2回 Google Geminiの使い方

生成AIを戦略の軸としたGoogle Cloud、差別化は「選択肢と垂直統合」 - クリアンCEO

マイクロソフト、Copilot for Securityの最新の顧客事例を紹介‐セキュリティ人材不足にメス

PagerDuty、独自開発の運用に特化した生成AIについて説明

次世代移動通信システム「5G」とは第119回ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

「大阪から日本の教育を変えていく」レノボと大阪教育大学の挑戦

島津製作所の米国子会社が3地域でR＆Dセンターを開所 - 製薬事業拡大へ

住友ゴムと村田製作所、タイヤの摩耗を可視化する新システムを共同開発

NTT Comの「アプレット領域分割技術」を活用したSIMが自販機のキャッシュレスを推進へ

PCI-SIG、PCI Express 7.0のRevision 0.5 Draft完成をアナウンス

あらゆるAIニーズに旧Xilinxとのシナジーで対応を進めるAMD、日本でも市場を拡大

パナソニック社の電動アシスト自転車、STのマイコンを活用してAI機能を搭載

このカテゴリーについて

行動認識(3) - Two-stream ConvNets

Two-stream ConvNets

Trajectory-Pooled Deep-Convolutional Descriptors

著者プロフィール

この連載の前後回

Members+ 会員限定記事

Google Geminiの活用方法 第2回 Google Geminiの使い方

生成AIを戦略の軸としたGoogle Cloud、差別化は「選択肢と垂直統合」 - クリアンCEO

マイクロソフト、Copilot for Securityの最新の顧客事例を紹介‐セキュリティ人材不足にメス

PagerDuty、独自開発の運用に特化した生成AIについて説明

次世代移動通信システム「5G」とは 第119回 ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

「大阪から日本の教育を変えていく」レノボと大阪教育大学の挑戦

島津製作所の米国子会社が3地域でR＆Dセンターを開所 - 製薬事業拡大へ

住友ゴムと村田製作所、タイヤの摩耗を可視化する新システムを共同開発

NTT Comの「アプレット領域分割技術」を活用したSIMが自販機のキャッシュレスを推進へ

PCI-SIG、PCI Express 7.0のRevision 0.5 Draft完成をアナウンス

あらゆるAIニーズに旧Xilinxとのシナジーで対応を進めるAMD、日本でも市場を拡大

パナソニック社の電動アシスト自転車、STのマイコンを活用してAI機能を搭載

このカテゴリーについて

Google Geminiの活用方法第2回 Google Geminiの使い方

次世代移動通信システム「5G」とは第119回ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由