今回は、ディープラーニングを用いた「一般物体認識」についてです。一般物体認識って何? と思われる方も多いと思います。コンピュータビジョン分野では、「特定物体認識」と「一般物体認識」があります。特定物体認識では、ある特定の物体が画像中に存在するかをコンピュータが認識します。例えば、iPhone 8 Plusといった特定の物体を認識します。一方、一般物体認識では、図1のように画像の中からさまざまな物体の位置とカテゴリを認識します。iPhone 8 Plusのように特定の物体ではなく、人、車、犬といった物体のカテゴリが認識対象となります。

  • 一般物体認識の例

    図1 一般物体認識の例

ディープラーニングに関する技術の発展によって、一般物体認識は日進月歩で進化しています。そこで今回はディープラーニングを用いた一般物体認識アルゴリズムの先駆けである「Region with CNN features(R-CNN)」[1]を紹介したいと思います。

R-CNN

R-CNNの処理の概要は図2の通りです。

  • R-CNNの処理の流れ

    図2 R-CNNの処理の流れ

Extract region proposals

まず、物体っぽい領域を過剰気味に検出します。具体的には、既存手法(Selective Search)[2]により、画像から物体候補(Region Proposals)を抽出します。Selective Searchは、ピクセルレベルで類似する領域をグルーピングすることで、物体らしき領域を見つる手法です(図3)。

  • Selective Searchによる物体候補領域の抽出

    図3 Selective Searchによる物体候補領域の抽出

Compute CNN Features

すべての物体候補領域中の画像を一定の大きさにリサイズ(Warped regions)し、CNNにより特徴量(features)を求めます。

Classify regions

CNNで求めた特徴量を、複数のSVMによって学習します。そして、未知の画像が入力された場合は、学習時と同様にCNNで求めた特徴量から、学習済みのSVMによりカテゴリを認識します。

このR-CNNは、ディープラーニングを用いない既存手法の精度を凌駕することに成功しました。ただし、多数の物体候補に対してCNNとSVMを用いてカテゴリ認識を行うため、処理が重たいという課題があります。有名な手法ですので、一般物体認識に興味のある方は論文をぜひ読んでみて下さい。

参考文献

[1] Girshick, R. B., Donahue, J., Darrell, T., and Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
[2] Uijlings, J., van de Sande, K., Gevers, T., and Smeulders, A. Selective search for object recognition. International journal of computer vision 104.2 (2013): 154-171.

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習