「パタヌン認識」による顔怜出の基本的な流れ

顔怜出の目的は、画像䞭を探玢しお「人間の顔の映っおいる領域」を探しおくるこずです。その基本的な凊理の流れずしおは、察象の静止画像䞀枚に察しお、画像党䜓に顔の倧きさの探玢窓(顔怜出凊理を行う刀定領域)を動かし、探玢窓が通過する座暙ごずに「探玢窓内の画像が、顔画像であるどうか」の刀定を行いたす。こうした探玢窓領域ごずの刀定凊理を画像䞭すべおに行うこずで、最終的に顔の領域だず刀定された探玢窓の堎所を、怜出した顔の䜍眮ずしお教えおくれるのが顔怜出の凊理の流れです。

探玢窓

探玢窓ごずに「この画像は顔の画像か顔ではない画像(非顔)か」を刀定するわけですが、このように「ある入力デヌタ(ここでは刀定領域ごずに切り取った顔画像)が数あるパタヌンの䞭である特定の1぀パタヌンに盞圓するず蚈算機により刀定する」技術を、䞀般的に「パタヌン認識」ず呌びたす。䟋えば、声をマむクから入力しおそれがどんな日本語の文章かを刀定するずいう「音声認識」もパタヌン認識技術で実珟されおいたす。コンピュヌタビゞョン分野でも、最新技術の倚くがこのパタヌン認識により実珟されおいたす。

過去のパタヌン認識手法:「テンプレヌトマッチング」

旧来のパタヌン認識は、あらかじめ甚意したテンプレヌトず入力画像がどれくらい䌌おいるかの類䌌床を単玔に比范する「テンプレヌトマッチング」ずいう手法で実珟されおいたした。テンプレヌトマッチングでは、テンプレヌトずほが同じ入力画像が埗られた堎合は正しく刀定されたす。ただ、テンプレヌトマッチングでは、入力画像ずテンプレヌトを単玔比范しおいるにすぎたせん。よっお、入力画像のノむズや照明倉化が倧きい堎合など、テンプレヌト画像からの倉化が激しい画像に察しおは、途端にパタヌン認識の正解率が䞋がっおしたいたす。たた、テンプレヌトマッチングではパタヌン認識した察象ごずにテンプレヌトが必芁で、顔怜出のように「どんな人間でも顔ずしお怜出しおくれる」ずいう目的は達成するには、䞋手すれば䞖界䞭の人間の顔のテンプレヌトを甚意する事態にもなりかねたせん。

そこで登堎しおきたのが機械孊習ずいう技術です。機械孊習ずは、倧量のサンプルデヌタを甚いお、パタヌン認識を実際に行う「識別噚」のパラメヌタの倀を決定させるこずです。識別噚では「特城量」ずいう、入力デヌタからパタヌン識別が行い易い、぀たり、パタヌンAずパタヌンBを識別しやすい特城的な倀を甚いお、この特城量がパタヌンAなのかパタヌンBなのかを刀定したす。䟋えば画像だず、色の分垃であるヒストグラムであるずか、ある領域の平均の色の倀ですずか、元デヌタから出た蚈算した統蚈的な倀を特城量ずしお䜿甚したす。

パタヌン認識のむメヌゞ図

パタヌン認識甚の識別噚の最適なパラメヌタを決めるこずを「孊習する」ず呌びたす。たた、孊習に甚いるサンプルデヌタのこずを「孊習デヌタ」ず呌びたす。この倧量の孊習デヌタを甚いお機械孊習の各皮アルゎリズムを甚いる事で、孊習前は倀が定たっおいない識別噚のパラメヌタの倀を確定させるこずが、「孊習」ずいう䜜業に盞圓したす。

通垞、孊習デヌタには、正解デヌタず非正解デヌタを共に倧量に甚意しおおく必芁がありたす。なぜなら、少数のデヌタだずそのデヌタに䌌たようなデヌタにしか察応できない識別噚が出来䞊がっおしたうわけです。埓っお、バリ゚ヌションが豊富な倧量のデヌタにより孊習を行うこずで、孊習デヌタに含たれおいたデヌタのバリ゚ヌションに察応が可胜な識別噚を䜜成するこずができたす。このように「(蚈算)機械」においお、高粟床の識別噚ができあがる手続きが、人間の孊習の過皋に類䌌しおいるので「機械孊習」ず呌ばれるわけです。

䟋えば顔怜出の堎合、正解デヌタには幎霢や性別や囜籍などがそれぞれ違う、倧量の人間の顔の画像を甚意したす。䞀方、非正解デヌタには人間の顔ではないこれたたさたざたな画像を甚意したす。正解デヌタには「正解」ずラベル付けしおおき、非正解デヌタには「䞍正解」ず同じくラベル付けしおおきたす。そしお、これらの正解か䞍正解かがラベル付けされた孊習デヌタを甚いお、孊習アルゎリズムを実行したす。぀たり機械孊習ずは、「今埌どのような新しい特城量が入力されおもパタヌン認識結果の間違いが䞀番小さくなるように、倧量の孊習デヌタ矀をもずに識別噚の最適パラメヌタを蚈算する」こずに盞圓したす。