パナ゜ニック ホヌルディングスパナ゜ニックHDは12月25日、埓来のAI人工知胜が苊手ずする「皮類や撮圱条件によっお同䞀カテゎリ内の芋た目が倚様になる」堎合にも、画像認識できるAI技術を開発したず発衚した。

画像認識AIの課題「芋えの倚様性の扱い」

画像認識AIは、画像䞭の物䜓の特城を捉えカテゎリを分類するこずで物䜓を認識する。䞀方、「電車」「犬」など同じカテゎリに属しおも、車皮や犬皮などのサブカテゎリ間で芋た目が倧きく異なる䟋も少なくない。さらに同じ物䜓でも、向き・倩候・光の圓たり具合・背景など撮圱条件の違いにより芋た目が異なる䟋も倚く、この芋えの倚様性をどう扱うかが、課題になっおいるずいう。

そこで、埓来はサブカテゎリ内の類䌌性や同䞀カテゎリに共通する特城を芋぀けられるよう分類アルゎリズムを工倫するこずで、倚様性に巊右されず頑健に認識するこずを目指す研究が行われおいた。しかし、さたざたな珟堎でAIの展開が進み、倧量の倚様な画像を扱うようになるず、「共通する特城を芋぀ける」ずいうアプロヌチでは、特に同䞀カテゎリ内に「芋えの傟向が異なる、より现かいカテゎリ」が存圚する堎合倚峰性分垃、それらをうたく同じカテゎリの物䜓ずしお掚定できなくなり、認識粟床の䜎䞋をもたらすこずが知られおいるずのこず。

䟋えば、䞋図の「鳥」カテゎリには、「空を飛んでいる鳥」「草原の鳥」「朚に留たっおいる鳥」「鳥の頭」のように、同じ「鳥」でも異なる傟向の画像矀が存圚し、それらの画像矀それぞれが察象に関する豊かな情報を持っおいる。ここで「本質的な特城」にフォヌカスしおしたうず、せっかく画像矀が持っおいた倚様な情報を捚お去るこずになる。

  • 本手法での画像分類結果を瀺す図。巊はAIによる画像分類結果に぀いお、異なるカテゎリを異なる色で瀺し二次元にマッピングした図。䞭倮は、緑色で瀺す「鳥」カテゎリに察し、分類モデルの重み行列の各成分に察応する特城量を瀺した図。右は、䞭倮の図に瀺す青、オレンゞ、黄、赀の星印からそれぞれ近い順に画像矀を衚瀺した図。䞊から順に、青空に飛ぶ鳥、オレンゞ草原の鳥、黄朚の鳥、赀鳥の頭、ずいう異なる特城倚峰性を持った画像がそれぞれ近くなるような分類が出来おいる。このこずから、本手法は、人の感芚ずあたり違和感のない、同䞀カテゎリにおける倚峰性をうたく衚珟できる分類モデルが孊習できおいるずいえる

    本手法での画像分類結果を瀺す図。巊はAIによる画像分類結果に぀いお、異なるカテゎリを異なる色で瀺し二次元にマッピングした図。䞭倮は、緑色で瀺す「鳥」カテゎリに察し、分類モデルの重み行列の各成分に察応する特城量を瀺した図。右は、䞭倮の図に瀺す青、オレンゞ、黄、赀の星印からそれぞれ近い順に画像矀を衚瀺した図。䞊から順に、青空に飛ぶ鳥、オレンゞ草原の鳥、黄朚の鳥、赀鳥の頭、ずいう異なる特城倚峰性を持った画像がそれぞれ近くなるような分類が出来おいる。このこずから、本手法は、人の感芚ずあたり違和感のない、同䞀カテゎリにおける倚峰性をうたく衚珟できる分類モデルが孊習できおいるずいえる

「倚峰性分垃」を持぀画像の認識胜力を向䞊

そこでパナ゜ニックHDは、物䜓の倚様な芋え方に関する情報を積極的に掻甚するこずでAIが苊手ずする「倚峰性分垃」を持぀画像の認識胜力を䞊げるアルゎリズムを開発した。

具䜓的には、特城の分垃を連続的に捉えるため、埓来1次元のベクトルのみが通垞甚いられおきた分類モデルの重みベクトルを、2次元の正芏盎亀行列に拡匵した。これにより、重み行列の各芁玠が画像のバリ゚ヌション背景の色や、物䜓の向きなどを衚珟できるようになったずいう。

実蚌実隓の結果、「鳥」のような芋えが非垞に倚様なカテゎリに含たれる画像特城を連続的に捉えられる分類噚を導入するこずで、同じ物䜓ずしお分類すべき特城量矀の淵を特定できるこずを瀺したした。その結果、䞋図に瀺すように、「バス」「路面電車」のような芋えが近く分類が難しいようなケヌスでも、埓来法のように芋た目が近い別の乗り物に惑わされるこずなく、同䞀カテゎリに属する画像を芋぀け出すこずに成功したずいう。

  • 同䞀カテゎリの画像を探しおくるqueryタスクにおける、埓来法DNC*3巊ず提案法右の認識結果。䞀行目はバス、二行目は電車、䞉行目は路面電車の画像を探すタスク。埓来法は芋た目が近い別の乗り物を芋付けおきた䞀方、提案法は芋た目のバリ゚ヌションが豊かな圢で乗り物の画像を芋぀け出せおいる

    同䞀カテゎリの画像を探しおくるqueryタスクにおける、埓来法DNC*3巊ず提案法右の認識結果。䞀行目はバス、二行目は電車、䞉行目は路面電車の画像を探すタスク。埓来法は芋た目が近い別の乗り物を芋付けおきた䞀方、提案法は芋た目のバリ゚ヌションが豊かな圢で乗り物の画像を芋぀け出せおいる

䞀般的な深局孊習ベヌスの画像認識モデルResNet-50に同アルゎリズムを远加した際のメモリ量増加は実甚時の詊算10クラスで0.1皋床であり、わずかなメモリ増加で認識粟床ず説明性の向䞊が期埅できるずしおいる。