【連載】

機械の目が見たセカイ -コンピュータビジョンがつくるミライ

41 領域分割(4) – CNNによるSemantic Image Segmentation

41/42

第36回の「領域分割(3)」から少し間があきましたが、今回は「Semantic Image Segmentation」についてです。Convolutional Neural Networks(CNN)をベースとした手法をいくつか紹介したいと思います。

Fully Convolutional Networksを用いた手法

ディープラーニングがブレークスルーとなり、物体認識の認識精度が飛躍的に向上しました。物体認識に用いられるCNNは図1の様に、出力層付近で全結合層を介しmクラスの物体識別結果(y1,y2,…, ym)を出力します。

図1 物体認識などに用いるCNNの例

Semantic Image Segmentationの分野も、CNNの一種であるFully Convolutional Networks(FCN)などの登場により飛躍的に性能が向上しました (参考文献[1])。FCNは、前述のCNNの全結合層をアップサンプリングした畳み込み層に置き換えたネットワークです。ピクセルごとにラベル付けされた教師データを与え学習することで、入力画像の各画素のラベル(物体種別)を推定することができます(図2)。

図2 Fully Convolutional Networksの概要

Deconvolution Networkを用いた手法

また、Deconvolution NetworkによるSemantic Image Segmentationも提案されています(参考文献[2])。この手法では、Convolution networkと、その逆のDeconvolution networkを組み合わせることで精度の高いラベリング結果を得ることに成功しています(図3、図4)。

図3 Deconvolution Networkの概要

図4 Deconvolution NetworkによるSemantic Segmentation結果

Fully Convolutional NetworksとConditional Random Fieldを用いた手法

FCNと第36回で紹介したConditional Random Field(CRF)を組み合せた手法です(参考文献[3])。CRFにおける平均場近似の推定処理をRecurrent Neural Network(RNN)とみなして定式化し、FCNとCRFを同時に学習することで高精度なSemantic Image Segmentationを実現しています(図5)。

第34回の記事で紹介したオックスフォード大学のSemantic Image Segmentationのデモページで気軽に試して見ることができます。

図5 FCNとCRFを用いたSemantic Image Segmentationの概要

高精度なSemantic Image Segmentationを実現できれば、自動車の自動運転などさまざまな分野に応用できる可能性があります。従来は、白線を検出し、画像の広範囲をスキャンすることで車両を検出し、同様に画像の広範囲をスキャンして歩行者を検出し、という処理を行っていました。Semantic Image Segmentationではこれらの処理を同時にできる訳です。興味のある方は参考文献を是非読んでみて下さい。また、ソースコードも公開されていますので、実際に動かしてみて下さい!

参考文献

[1] J. Long, E. Shelhamer, T. Darrel: Fully Convolutional Networks for Semantic Segmentation. CVPR2015 [2] H. Noh, S. Hong, B. Han: Learning Deconvolution Network for Semantic Segmentation. ICCV2015 [3] S. Zheng, S. Jayasumana, B. R. Paredes, V. Vineet, Z. Su, D. Du, C. Huang, P. H. S. Torr: Conditional Random Fields as Recurrent Neural Networks. ICCV2015

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習

41/42

インデックス

連載目次
第42回 ディープラーニングの基礎(1) - ニューラルネットワークとは
第41回 領域分割(4) – CNNによるSemantic Image Segmentation
第40回 ハードウェアの基礎知識(4) - GPGPU
第39回 ハードウェアの基礎知識(3) - レンズ
第38回 ハードウェアの基礎知識 (2) - 電子シャッター
第37回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(3)
第36回 領域分割(3) - CRFを用いたSemantic Image Segmentation
第35回 領域分割(2) - Mean Shift法を用いたImage Segmentation
第34回 領域分割(1) - 概要編
第33回 見えないものを観る(3) - 目に見えない光「赤外線」を観る
第32回 見えないものを観る(2) - 絵画の下書きを観る
第31回 見えないものを観る(1) - 映像から音を復元する
第30回 動く人・物を追跡する(4) - OpenCVのトラッキング手法(後編)
第29回 動く人・物を追跡する(3) - OpenCVのトラッキング手法(中編)
第28回 動く人・物を追跡する(2) - OpenCVのトラッキング手法(前編)
第27回 動く人・物を追跡する(1) - OpenCVによるトラッキング
第26回 インターネット上の画像群からTime-lapse映像を自動生成する手法の概要
第25回 一人称視点(3) - Social Saliency
第24回 一人称視点(2) - Social Interaction
第23回 一人称視点(1) - 概要
第22回 行動認識(3) - Two-stream ConvNets
第21回 行動認識(2) - 動きの特徴量(HOF、MBH)
第20回 行動認識(1) - Dense Trajectories
第19回 視線計測(3) - カメラのみを用いた視線計測
第18回 視線計測(2) - 近赤外の点光源を用いた視線計測
第17回 視線計測(1) - 導入編
第16回 コンピュータビジョン分野における機械学習(4) - Deep Learning
第15回 コンピュータビジョン分野における機械学習(3) - 識別器
第14回 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出
第13回 コンピュータビジョン分野における機械学習(1) - 導入編
第12回 コンピュータビジョン分野の市場分析(1) - 自動車編
第11回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(2)
第10回 カメラを用いた3次元計測(4) - Structure from Motion
第9回 カメラを用いた3次元計測(3) - サブピクセル推定
第8回 カメラを用いた3次元計測(2) - ステレオカメラ
第7回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(1)
第6回 カメラを用いた3次元計測(1)
第5回 意外と知らないカメラキャリブレーション
第4回 ハードウェアの基礎知識
第3回 コンピュータビジョンの要素技術と応用範囲(後編)
第2回 コンピュータビジョンの要素技術と応用範囲(前編)
第1回 普及期に入ったコンピュータビジョン

もっと見る

関連キーワード


人気記事

一覧

イチオシ記事

新着記事