機械の目が見たセカイ　-コンピュータビジョンがつくるミライ(16) コンピュータビジョン分野における機械学習(4) - Deep Learning

今回は、大流行中のDeep Learningについてです。コンピュータビジョン分野では、Deep Convolutional Neural Network(以下、CNN)がよく用いられます。

Neural Networkとは?

Neural Network(ニューラルネットワーク)は、脳を模倣した機械学習です。ニューラルネットワークは長年のあいだ、入力層、中間層(隠れ層)、出力層のシンプルな構造が主でした(図1)。手書き数字の認識を例に説明すると、入力層(x₁, x₂, ……, x_n)には各ピクセルの輝度値を入力します。縦10画素×横10画素の画像であれば、nは100となります。そして、出力層(y₁, y₂, ……, y_m)は、手書き数字が、0から9のいずれなのかを出力することになるので、mは10です。

学習フェーズで、各ノード間の重みを求めておくと、未知の画像が入ってきたときに書かれている数字が0から9のいずれなのかを識別できるわけです。

図1 ニューラルネットワークの例

Deep Learningとは?

長年の間、ニューラルネットワークは図1のようなシンプルな構造でした。ニューラルネットワークのブームが去った後、ニューラルネットワークに代わる機械学習手法として、前回ご紹介したSVMやRandom Forestなどの研究が進められてきました。そしてここ数年で、中間層を何層も重ねたDeep Neural Networkにより、高い識別性能を得ることに成功し、ニューラルネットワークのブームが再びやってきたわけです。学習技術の進歩、大量の学習データ、PCの性能向上により、深い構造を持つニューラルネットワークを利用できるようになったのです。

コンピュータビジョン分野では、主にCNNが用いられます。2次元配列の構造を持つ画像と、二次元配列のフィルタによる畳み込み処理の相性が良いことが、CNNが用いられる理由だと思います。

CNNの概要

CNNの概要は、図2のとおりです。入力画像がRGBのカラー画像であれば、入力は3チャンネルとなります。その入力画像にフィルタをかけ、足し合わせることでひとつのマップを生成します。そしてPooling処理でマップのサイズを縮小し、最後はニューラルネットワークの入力層にマップの値を入力する構造です。Poolingは一般的にはMax PoolingかSum Poolingを用います。Max Poolingは、たとえば2×2の小領域の中から最大の値のみを取り出します。Sum Poolingは、小領域中の値の合計値を求めます。

学習フェーズでは、ニューラルネットワークのノード間の重みに加え、フィルタの係数を求めることになります。フィルタを複数種類用いて、複数のマップを作成することもできます。さらに、フィルタを用いた畳み込み処理、Pooling処理を何層にも重ねることもできます。

図2　CNNの概要

CNNでは、前回までに解説した顔検出、人検出技術のように、Haar-likeやHoGといった特徴量を設計する必要がありません。フィルタのパラメータを学習フェーズで求め、そのフィルタが特徴抽出器となります。つまり、特徴量の設計まで自動でやってくれる優れものです。

Caffe、Chainer、TensorFlowといったDeep Learningのフレームワークを用いることで比較的容易にコーディングできます。機械学習分野では避けて通れない技術ですので、興味のある方はぜひ挑戦してみてください!

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

現在は、日立製作所を退職し、東京大学大学院博士課程に在学中。一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。また、大学院での研究の傍ら、フリーランスとしてコンピュータビジョン技術の研究開発に従事している。

専門:コンピュータビジョン、機械学習

コンピュータビジョン分野における機械学習(4) - Deep Learning

Neural Networkとは?

Deep Learningとは?

CNNの概要

著者プロフィール

この連載の前後回

AIが勧める、あなたのための会員限定記事

正しいクラウドセキュリティの選択において重視すべきポイントとは

macOSユーザー狙ったサイバー攻撃、駆除しても復活するしぶとさに注意

軍事とIT 第617回 DSEI Japan(7)衛星などブルーキャニオン・テクノロジーズの機敏な事業体制

GMOグローバルサイン、耐量子計算機暗号対応テスト用電子証明書の発行を開始

みんなの銀行、ステーブルコインおよびWeb3ウォレットの事業化に向け検討を開始

疲労時の判断力維持に効果を発揮するカカオの成分を早大が発見！

日本製半導体製造装置の2025年度売上高は前年度比2.0％増の4兆8643億円、SEAJ予測

韓国新大統領就任で日韓の半導体産業の関係強化は進むのか？　地政学リスクの観点から考える

IntelやNVIDIAがインドや中国出身のAI人材の確保を推進、海外メディア報道

車載用ディスプレイを学ぶ第2回車載ディスプレイにおけるTFT液晶/有機EL/マイクロLED向けの給電技術

OEG、高崎に半導体製造ライン向け化学分析を手掛けるラボを開設

Micronの2025会計年度第3四半期業績は過去最高の売上高、第4四半期も15％成長予測

このカテゴリーについて

コンピュータビジョン分野における機械学習(4) - Deep Learning

Neural Networkとは?

Deep Learningとは?

CNNの概要

著者プロフィール

この連載の前後回

AIが勧める、あなたのための会員限定記事

正しいクラウドセキュリティの選択において重視すべきポイントとは

macOSユーザー狙ったサイバー攻撃、駆除しても復活するしぶとさに注意

軍事とIT 第617回 DSEI Japan(7)衛星などブルーキャニオン・テクノロジーズの機敏な事業体制

GMOグローバルサイン、耐量子計算機暗号対応テスト用電子証明書の発行を開始

みんなの銀行、ステーブルコインおよびWeb3ウォレットの事業化に向け検討を開始

疲労時の判断力維持に効果を発揮するカカオの成分を早大が発見！

日本製半導体製造装置の2025年度売上高は前年度比2.0％増の4兆8643億円、SEAJ予測

韓国新大統領就任で日韓の半導体産業の関係強化は進むのか？ 地政学リスクの観点から考える

IntelやNVIDIAがインドや中国出身のAI人材の確保を推進、海外メディア報道

車載用ディスプレイを学ぶ 第2回 車載ディスプレイにおけるTFT液晶/有機EL/マイクロLED向けの給電技術

OEG、高崎に半導体製造ライン向け化学分析を手掛けるラボを開設

Micronの2025会計年度第3四半期業績は過去最高の売上高、第4四半期も15％成長予測

このカテゴリーについて

韓国新大統領就任で日韓の半導体産業の関係強化は進むのか？　地政学リスクの観点から考える

車載用ディスプレイを学ぶ第2回車載ディスプレイにおけるTFT液晶/有機EL/マイクロLED向けの給電技術