【連載】

機械の目が見たセカイ -コンピュータビジョンがつくるミライ

42 ディープラーニングの基礎(1) - ニューラルネットワークとは

  • >
  • >>

42/42

近年注目を集めいているディープラーニング(Deep Learning:深層学習)について、基礎的な内容を解説していきたいと思います。ディープラーニングは、人間の神経細胞(ニューロン)の仕組みを模擬した手法であるニューラルネットワークが基になっています。ディープラーニングの概念自体は新しいものでは無いのですが、近年ディープラーニングが注目を集めています。その理由は、既存技術では不可能だったレベルのパフォーマンスを達成できるようになってきているからと言えます。

ディープラーニングを説明する前に、まずはニューラルネットワークとは何かをみていきましょう。

神経細胞(ニューロン)の概要

人間の神経細胞の構成図は図1のとおりです。神経細胞は、核とそれを取り巻く細胞質からなる細胞体と、そこから伸びる軸索と樹状突起で構成されています。樹状突起は他の神経細胞から刺激を受け取る入力アンテナの役割を、軸索は他の細胞に刺激を伝える出力端子の役割を担います。

この刺激をニューロン間で伝達するために、シナプスと呼ばれる構造が形成されています。シナプスとは簡単に言えば、隣のニューロンに情報を伝えるための接合部のことです。軸索の先端(軸索末端)は他の細胞の樹状突起と接続してシナプスを形成し、シナプスを通じて他の細胞に信号を伝達します。このシナプスを通じた情報伝達は一方向に行われます。

図1 神経細胞の構成図 (出所:Wikipedia)

神経細胞の構成図を簡略化したものが図2です。ニューロンはシナプスを通じて信号を受け取ります。シナプスには、興奮性シナプスと、抑制性シナプスが存在し、興奮性シナプスからの信号の総和から抑制性シナプスからの信号の総和を引いた結果が、閾値よりも大きい場合に発火が起こり次のニューロンに信号が伝達されます。

図2 神経細胞の簡略図

神経細胞とニューラルネットワーク

図3は、ニューラルネットワークにおけるニューロンの概略図です。x1からx4 の信号がシナプスを通じて入力され、刺激の総和uが計算されます。そして、刺激の総和uに基づいて信号zを出力します。刺激の総和uから出力zを求める関数は活性化関数f(u)と呼ばれています。

図3 ニューラルネットワークにおけるシナプスとニューロン

前述の神経細胞の概略(図2)と、図3のニューラルネットワークの動作原理を対応づけたものが図4です。シナプスを通じてx1からx4が入力されます。その際に、各入力に重みw1からw4が掛け合わされ、バイアスbが加算されて、それらの総和uが求まります。そして、活性化関数f(u)により出力信号zが決定します。wが正の場合は興奮性シナプス、負の場合は抑制性シナプスとみなすことができます。

図4 神経細胞とニューラルネットワークの関係

このニューロンを並列に多数配置し、さらにそれらを層状に連結したものがニューラルネットワークです(図5)。各層間のニューロンはシナプスにより連結されており、すべてのシナプスがそれぞれ重みwを持っています。

0から9の数字認識を例に説明すると、入力層x1からxD に画像の各画素の輝度値が入力され、重みwが掛け合わされ総和を計算した後、活性化関数により出力zが出力され、という処理を複数回繰り返して最終的な出力値y1からym(入力画像の数字が0から9のいずれなのか)が得られます。

図5 ニューラルネットワークの概略図

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習

  • >
  • >>

42/42

インデックス

連載目次
第42回 ディープラーニングの基礎(1) - ニューラルネットワークとは
第41回 領域分割(4) – CNNによるSemantic Image Segmentation
第40回 ハードウェアの基礎知識(4) - GPGPU
第39回 ハードウェアの基礎知識(3) - レンズ
第38回 ハードウェアの基礎知識 (2) - 電子シャッター
第37回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(3)
第36回 領域分割(3) - CRFを用いたSemantic Image Segmentation
第35回 領域分割(2) - Mean Shift法を用いたImage Segmentation
第34回 領域分割(1) - 概要編
第33回 見えないものを観る(3) - 目に見えない光「赤外線」を観る
第32回 見えないものを観る(2) - 絵画の下書きを観る
第31回 見えないものを観る(1) - 映像から音を復元する
第30回 動く人・物を追跡する(4) - OpenCVのトラッキング手法(後編)
第29回 動く人・物を追跡する(3) - OpenCVのトラッキング手法(中編)
第28回 動く人・物を追跡する(2) - OpenCVのトラッキング手法(前編)
第27回 動く人・物を追跡する(1) - OpenCVによるトラッキング
第26回 インターネット上の画像群からTime-lapse映像を自動生成する手法の概要
第25回 一人称視点(3) - Social Saliency
第24回 一人称視点(2) - Social Interaction
第23回 一人称視点(1) - 概要
第22回 行動認識(3) - Two-stream ConvNets
第21回 行動認識(2) - 動きの特徴量(HOF、MBH)
第20回 行動認識(1) - Dense Trajectories
第19回 視線計測(3) - カメラのみを用いた視線計測
第18回 視線計測(2) - 近赤外の点光源を用いた視線計測
第17回 視線計測(1) - 導入編
第16回 コンピュータビジョン分野における機械学習(4) - Deep Learning
第15回 コンピュータビジョン分野における機械学習(3) - 識別器
第14回 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出
第13回 コンピュータビジョン分野における機械学習(1) - 導入編
第12回 コンピュータビジョン分野の市場分析(1) - 自動車編
第11回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(2)
第10回 カメラを用いた3次元計測(4) - Structure from Motion
第9回 カメラを用いた3次元計測(3) - サブピクセル推定
第8回 カメラを用いた3次元計測(2) - ステレオカメラ
第7回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(1)
第6回 カメラを用いた3次元計測(1)
第5回 意外と知らないカメラキャリブレーション
第4回 ハードウェアの基礎知識
第3回 コンピュータビジョンの要素技術と応用範囲(後編)
第2回 コンピュータビジョンの要素技術と応用範囲(前編)
第1回 普及期に入ったコンピュータビジョン

もっと見る

関連キーワード


人気記事

一覧

イチオシ記事

新着記事