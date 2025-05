今回は2017年に開催されたコンピュータビジョン分野のトップカンファレンス「ICCV2017」でBest Paper Awardを受賞した「Mask R-CNN」[1]をご紹介します。Mask R-CNNは、一般物体検出も領域分割もできる優れものです。

領域分割の代表的な研究分野である「Semantic Segmentation」は、複数人が重なっていたとしても人には同一のラベルが付与されるため、人の境界がわからず、何人いるかも求められませんでした。Mask R-CNNはここからさらに一歩進んだ、各人を分離して領域を求めることができるInstance segmentationが可能となっています。Semantic segmentation(Category-level segmentation)と Instance segmentationの比較は図1の通りです。

Mask R-CNNは、2015年に発表された Faster R-CNN[2]がベースとなっています。Faster R-CNNの概要は図2の通りです。入力画像からConvolutional layersを通って特徴量マップを生成するとともにRegion Proposal Network(RPN)により物体領域後を生成します。そして、特徴量マップを固定のサイズに圧縮し、最後に全結合層を介して物体領域の座標と物体のカテゴリを推定します。

一方、Mask R-CNNの概要は図3となります。領域分割用のネットワークが加わっていることが大きな違いです。特徴量マップからさらにConvolutional Layersを通って、最終的にマスク領域を推定します。

このMask R-CNNで物体を検出し、その物体の領域を推定した結果が動画1です。詳細を知りたい方は論文を読んでみて下さい。また、コードが公開されてますので、是非動かしてみて下さい!!

参考文献

[1] Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick, R. Mask R-CNN. In ICCV2017.

[2] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks." in NIPS2015.