前回の「Fast R-CNN」に続き、「Faster R-CNN」[1]の概要について解説したいと思います。前回のFast R-CNNと似ていますが、こちらの方がより新しく、高性能な手法です。それでは全体像から説明していきたいと思います。

Faster R-CNNの概要

Fast R-CNNは、一般物体検出の大部分をディープラーニングで実現しましたが、物体候補(Region Proposals)を検出するアルゴリズムは依然として第52回でも触れたディープラーニング以前の手法であるSelective Searchを用いていました。つまり、画像の入力から物体候補抽出までと、物体候補から物体の識別までが分断されてしまっており、画像の入力から物体検出までを1つのモデルで一気に学習・推定することができるEnd-to-Endには至っていませんでした。

そこで、Faster R-CNNではSelective Searchの代わりとなる「Region Proposal Network(RPN)」という物体候補領域を推定するためのネットワークを導入することで、画像の入力から物体の検出までをEnd-to-Endで学習・推定できるモデルを提案しました(図1)。

  • Faster R-CNNの概要

    図1 Faster R-CNNの概要

Region Proposal Networkとは

Faster R-CNNとFast R-CNNの大きな違いは、Region Proposal Network(RPN)です。RPNは、入力画像中から物体候補領域(物体が存在し得る画像領域の候補)を抽出するためのネットワークです。Fast R-CNN以前の手法では、物体領域抽出にSelective Searchと呼ばれるディープラーニング以前の手法を使っていたため、抽出性能が低く候補が無数に抽出されてしまい、物体候補領域の抽出とその後の識別処理の計算コストが膨大となってしまっていました。

Faster R-CNNでは、物体候補領域の抽出をディープラーニングのモデルに取り込み、End-to-Endで学習・推定することで高性能な物体候補領域の抽出を実現し、その結果従来よりも高速かつ高性能な一般物体検出を実現しています。

RPNは、物体候補を出力するための2つの機能を持っています。1つ目は、図2中の赤枠内の画像が物体かどうかを表すスコアを計算する機能(図2中のcls layer)です。2つ目は、赤枠の概説矩形のスケールや位置を回帰により微調整する機能(図2中のreg layer)です。赤枠は、あらかじめ定義されたk個の外接矩形(Anchor)を用いて決定されます。このAnchor boxにさまざまな形、サイズを用意しておくとで多種多様な物体を検出できるようになるわけです。

  • Region Proposal Network(RPN)の概要

    図2 Region Proposal Network(RPN)の概要

物体候補領域の抽出後はFast R-CNNと同様に、Feature maps上の物体候補領域内からROI poolingにより物体サイズによらず同一サイズの特徴量ベクトルを生成し、物体識別用ネットワークに入力することで最終的な物体検出結果を得る仕組みとなっています(図1)。

参考文献

[1] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks." in NIPS2015.

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習