今回は2017年に開催されたコンピュータビジョン分野のトップカンファレンス「ICCV2017」でBest Paper Awardを受賞した「Mask R-CNN」[1]をご紹介します。Mask R-CNNは、一般物体検出も領域分割もできる優れものです。

領域分割の代表的な研究分野である「Semantic Segmentation」は、複数人が重なっていたとしても人には同一のラベルが付与されるため、人の境界がわからず、何人いるかも求められませんでした。Mask R-CNNはここからさらに一歩進んだ、各人を分離して領域を求めることができるInstance segmentationが可能となっています。Semantic segmentation(Category-level segmentation)と Instance segmentationの比較は図1の通りです。

Faster R-CNNとMask R-CNNの比較

Mask R-CNNは、2015年に発表された Faster R-CNN[2]がベースとなっています。Faster R-CNNの概要は図2の通りです。入力画像からConvolutional layersを通って特徴量マップを生成するとともにRegion Proposal Network(RPN)により物体領域後を生成します。そして、特徴量マップを固定のサイズに圧縮し、最後に全結合層を介して物体領域の座標と物体のカテゴリを推定します。

  • Faster R-CNNの概要

    図2 Faster R-CNNの概要

一方、Mask R-CNNの概要は図3となります。領域分割用のネットワークが加わっていることが大きな違いです。特徴量マップからさらにConvolutional Layersを通って、最終的にマスク領域を推定します。

  • Mask R-CNNの概要

    図3 Mask R-CNNの概要

このMask R-CNNで物体を検出し、その物体の領域を推定した結果が動画1です。詳細を知りたい方は論文を読んでみて下さい。また、コードが公開されてますので、是非動かしてみて下さい!!

動画1 Mask R-CNNによる物体検出と領域分割結果

参考文献

[1] Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick, R. Mask R-CNN. In ICCV2017.
[2] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks." in NIPS2015.

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習