【連載】

機械の目が見たセカイ -コンピュータビジョンがつくるミライ

14 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出

14/35

今回は、顔検出・人検出についてもう少し詳しく解説したいと思います。説明を簡略化するために、「顔」と「人」のみを検出対象として説明しますが、検出対象が車や自転車であっても同じ枠組みで検出することができます。

顔検出の処理フロー

顔検出には2つのフェーズがあります(図1)。ひとつは、事前に行う学習データを用いた学習フェーズです。もうひとつは、学習フェーズで学習した結果を用いた識別フェーズ(テストフェーズ)です。

学習画像は、顔画像(ポジティブデータ)と、顔以外の画像(ネガティブデータ)を用意します。もし、画像のサイズが均一でなければ、リサイズ処理により画像のサイズを統一する必要があります。そして、画像から特徴量を抽出し、学習して、学習結果を保存しておきます。

識別フェーズでは、入力画像が学習時の画像サイズと異なっている場合は、まず画像のリサイズを行います。そして、学習時と同じ特徴量を抽出し、学習結果を用いて映っている画像が顔か、顔以外かを識別します。このとき、入力画像が図2のような、上半身全体が写っている画像から顔を見つけたい場合は、ウィンドウを2次元スキャンして探索することになります。顔の大きさが未知の場合は、ウィンドウのサイズを変えて、複数回2次元スキャンを行う必要があります。

図1 従来の顔検出の処理フロー

図2 顔画像の探索処理

特徴量

Haar-like特徴量

人間は何をもって顔と認識しているのでしょうか? 図3のように顔画像をぼかしても、顔として認識することができます。これは、目と肌の明暗差、鼻の凹凸による明暗差などから顔と認識していると言えます。

図3 ぼかした顔画像

このような顔の特徴を抽出するために、顔検出ではHaar-like特徴が良く用いられます(図4)。左右方向や、上下方向の明暗差を判定するためのHaar-likeパターンと呼ばれるマスクを用いて、目、鼻、口などの特徴量を抽出します。たとえば、目の領域であれば、上下方向に明暗の変化があります。鼻の領域は、左右方向に明暗の変化が現れます。この顔の普遍の特徴を、Haar-likeパターンで抽出するというアプローチです。

図4 Haar-like特徴量

HoG特徴量

顔の場合は、目、鼻、口付近の明暗差が大きく変わらないため、Haar-like特徴が有用でした。しかし、人検出の場合は、服や体の姿勢の差異によって、局所的な明暗差は大きく変化してしまいます。人間の体を検出対象とした場合、各部位の明暗差よりも、顔や肩の輪郭情報がより重要になってきます。そこで、HoG(Histograms of Oriented Gradients)という特徴量が提案されました(図5)。これは、画像を格子状に分割し、各格子の局所領域内の輝度勾配方向を求め、輝度勾配方向をヒストグラム化したものを特徴量とします。これにより、肩であれば斜めの輝度勾配が多く含まれる、首であれば水平方向の輝度勾配が多く含まれるといった、輪郭の特徴を抽出することができます。

図5 HoG特徴量

Haar-like、HoG以外にも、Joint Haar-like、Joint HoG、Shapeletなどさまざまな特徴量が提案されています。少なくとも、Haar-likeとHoGは知っておくようにしましょう!

次回は、抽出した特徴量を用いて、学習・識別を行う識別器について解説したいと思います。

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

現在は、日立製作所を退職し、東京大学大学院博士課程に在学中。一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。また、大学院での研究の傍ら、フリーランスとしてコンピュータビジョン技術の研究開発に従事している。

専門:コンピュータビジョン、機械学習

14/35

インデックス

連載目次
第35回 領域分割(2) - Mean Shift法を用いたImage Segmentation
第34回 領域分割(1) - 概要編
第33回 見えないものを観る(3) - 目に見えない光「赤外線」を観る
第32回 見えないものを観る(2) - 絵画の下書きを観る
第31回 見えないものを観る(1) - 映像から音を復元する
第30回 動く人・物を追跡する(4) - OpenCVのトラッキング手法(後編)
第29回 動く人・物を追跡する(3) - OpenCVのトラッキング手法(中編)
第28回 動く人・物を追跡する(2) - OpenCVのトラッキング手法(前編)
第27回 動く人・物を追跡する(1) - OpenCVによるトラッキング
第26回 インターネット上の画像群からTime-lapse映像を自動生成する手法の概要
第25回 一人称視点(3) - Social Saliency
第24回 一人称視点(2) - Social Interaction
第23回 一人称視点(1) - 概要
第22回 行動認識(3) - Two-stream ConvNets
第21回 行動認識(2) - 動きの特徴量(HOF、MBH)
第20回 行動認識(1) - Dense Trajectories
第19回 視線計測(3) - カメラのみを用いた視線計測
第18回 視線計測(2) - 近赤外の点光源を用いた視線計測
第17回 視線計測(1) - 導入編
第16回 コンピュータビジョン分野における機械学習(4) - Deep Learning
第15回 コンピュータビジョン分野における機械学習(3) - 識別器
第14回 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出
第13回 コンピュータビジョン分野における機械学習(1) - 導入編
第12回 コンピュータビジョン分野の市場分析(1) - 自動車編
第11回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(2)
第10回 カメラを用いた3次元計測(4) - Structure from Motion
第9回 カメラを用いた3次元計測(3) - サブピクセル推定
第8回 カメラを用いた3次元計測(2) - ステレオカメラ
第7回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(1)
第6回 カメラを用いた3次元計測(1)
第5回 意外と知らないカメラキャリブレーション
第4回 ハードウェアの基礎知識
第3回 コンピュータビジョンの要素技術と応用範囲(後編)
第2回 コンピュータビジョンの要素技術と応用範囲(前編)
第1回 普及期に入ったコンピュータビジョン

もっと見る

関連キーワード


人気記事

一覧

イチオシ記事

新着記事