【連載】

コンピュータビジョンのセカイ - 今そこにあるミライ

1 身近なものとなってきたコンピュータビジョンの世界

  • <<
  • <

1/85

皆様はコンピュータビジョンという用語をご存知でしょうか。例えばデジタルカメラに搭載されている顔画像認識や、Google Street Viewの360度パノラマ表示、XBox360のKinectによるプレイヤーのジェスチャー認識など、これらは全てコンピュータビジョンの技術による製品です。

この連載では「コンピュータビジョンを応用した実際の製品」を毎回1つのテーマのもとで紹介し、その仕組みを誰でも理解できるレベルで簡単に解説していきます。これにより「いかにコンピュータビジョンが身近な存在で、かつ、いかにその使われている場所が急速に増えているか」をたくさんの方に知っていただきたいと思っております。

私は今回の連載のテーマであるコンピュータビジョン技術の研究者です。慶應義塾大学 理工学部 青木研究室という研究室に所属しております。大学院の修士課程を卒業したあと某企業にてソフトウェア開発の仕事を行っていたのですが、この春でその会社を退職して転身をしたという駆け出しのコンピュータビジョン研究者です。

「え、結局コンピュータビジョンってなに?」というあなた。何事もせっかちなのはいけませんよ。今回より詳しく説明していきますのでぜひ次回以降もお読みください。

コンピュータビジョン(英語ではComputer Vision)は科学技術分野の一種類で、「コンピュータを用いた視覚(Vision)の実現」を研究する学術分野です。つまり「様々なタスクをこなすための情報を画像データから抽出する」ことで、例えば顔画像の認識や、ノイズの自動除去、高画質画像の自動生成といった「コンピュータによる視覚」を実現するのがコンピュータビジョンの目的です。

コンピュータビジョンは世界中の情報工学系の優秀な研究者達が競って研究している活発な学術分野です。コンピュータビジョンのような情報工学系の学問はノーベル賞などがないので実感は沸きづらいかもしれませんが、世界中で研究者が増えており年々その規模が広まっています。またその研究の活発さとあいまって、年々実社会での応用例が爆発的に増えています。これを読むまで知らなかったかもしれませんが、あなたの身の回りや会社のまわりでは数多くのコンピュータビジョン技術が使われています。

今回は連載の第1回ということで、まずイントロダクションとして、コンピュータビジョンの概要と、次回から紹介していくアプリケーションのリストを紹介します。

コンピュータビジョンってなに??

コンピュータビジョンは、コンピュータによる視覚を実現する技術です。ある「画像データ」を用いて何らかの処理を行い、人間の視覚と同じ視覚処理を実現します。また、時には人間では不可能な視覚処理をも実現します。要するに、静止画もしくは動画を入力データとして使い、人間の視覚のようなものをコンピュータのソフトウェアで実現するというのがコンピュータビジョンという分野です。

例えばデジタルカメラでの顔画像認識は人間の視覚と同等の仕組みを、コンピュータビジョンで実現したものです。一方、Google Street Viewの360度視点画像は、人間ひとりでは実現できない技術ですが、これも視覚に関するコンピュータ技術なのでコンピュータビジョンの範疇というわけです。

コンピュータビジョンが処理対象としている「画像データ」の種類は様々で、通常のデジタルカメラや携帯カメラなどで撮影する画像データや、ステレオカメラなどの複数方向からのデータや、ビデオシーケンス、距離画像カメラによる奥行き情報付きの距離画像など様々なものがあります。

コンピュータビジョンの代表的な技術としてあげられるものには、例えば以下のようなものがあります。

  • ステレオビジョンによる3次元形状再構成
  • ビデオ中の物体トラッキング(人間の動きの追跡など)
  • 顔画像認識などに代表される物体認識
  • オプティカルフローによる動き推定
  • 超解像や写真レタッチなどの画像復元
  • AR(複合現実感)
  • イメージスティッチング(パノラマ画像の自動作成)

このリストを見て「えっ!?」と思った方、心配しないでください。この連載では先に技術を数式で把握してからその応用例を説明するという教科書みたいな頭が痛くなるような手順でコンピュータビジョンを紹介したりするつもりはありません。もちろん専門の技術者の方々にはこれらの具体的なアルゴリズムを順番に勉強していただくのが一番なのですが、今回の連載の目的はあくまで「コンピュータビジョン技術が幅広くいろいろなところで用いられていることを知ってもらう」ことです。よって、実際に世の中にある製品例を順番に紹介するという形で、それらの仕組みであるこれらのコンピュータビジョン技術を紹介して行きます。

コンピュータビジョンとその周辺分野

コンピュータビジョンはコンピュータにプログラミングされた人間相当の眼を作ることを目的としているので、しばしばコンピュータグラフィックスの逆問題であると説明されます。コンピュータグラフィックスは人間が人工的に作り出した3次元モデルを、我々がそれをディスプレイで見るための2次元への投影を表示するための技術ですが、コンピュータビジョンは実世界を撮影した2次元の画像データから人間が頭でそれらの中の情報を認識して処理するための3次元の情報を抜き出すことを目的として技術だからです。

こういう対称関係があるからか、こらら2つは相互に補い合う場面が多くみられます。バーチャルリアリティ(VR)や拡張現実感(AR)などの画像表示技術などがまさにそうで、これらをコンピュータグラフィックスと言えばよいか、コンピュータビジョンと呼べばよいか曖昧なところがあります。

また、最近技術革新が著しいロボットにもコンピュータビジョンが重要な役割を果たしています。ロボットが自力で移動するためには当然ロボットが自分の周辺環境を画像やその他センサで把握する必要があり、ロボットの技術でもコンピュータビジョンの技術が非常に重要な役割を果たしています。

この連載で紹介するコンピュータビジョンのアプリケーション

第2回から、以下のようなアプリケーション例を紹介・解説していく予定です。

  • マッチムーブ:映像中の3次元座標を自動認識し、カメラが回転しても違和感無く3次元画像を表示する技術
  • デジタルカメラ:顔画像認識
  • Computational Photograhy:HDR、超解像、など
  • ロボットの画像処理:テレプレゼンスロボットの画像処理
  • AR(拡張現実感):ARToolkitの仕組み
  • ジェスチャー認識:Kinectによる人間のジェスチャー認識や、普及が近づいているPC操作ジェスチャ認識
  • 顔画像関係:顔画像3Dトラッキング。表情による感情解析
  • スポーツ解析:サッカーやテニスでのゴール判定や選手トラッキング
  • モーションキャプチャー:基本的原理からAvatarでの最新のものまで
  • 車載カメラ認識:歩行者や車両認識。ステレオカメラによるレーン認識など
  • 3次元計測(イメージベースドレンダリング):Google Street Viewなど
  • 3次元計測(ポイントクラウドベース):Microsoft Photo Synthなど
  • 医療画像処理:病変の自動認識や、内視鏡画像の3次元可視化
  • マシンビジョン:工場での自動検査装置やロボットアームを助ける画像処理
  • セキュリティ:ビデオ解析による監視システム。
  • 生体認証・OCR:指、顔、文字の認識
  • 画像検索:画像による検索Webサイトのための特定物体認識
  • 航空宇宙画像処理:月面画像からの月面表面の3次元形状推定や、衛星写真と地上写真の対応づけなど

冒頭でも述べたようにコンピュータビジョンは研究段階から実用化への期間が非常に早く、連載していく中で紹介できる実例が増えていくのは確実です。よって、そのたびに新しいテーマを追加して紹介ようと考えているので、これはあくまで現状の紹介予定リストであることをご了承ください。

また、SIIGRAPHなどコンピュータビジョンが関わってくる著名な国際会議には、MicrosoftやWalt DisneyなどComputer Visionに強い企業が新製品に用いる技術の研究成果を発表してきます。よって、それらの国際会議の速報記事も提供していければとも考えています。

連載開始に添えて

コンピュータビジョンという分野はPCとインターネットの急速な発展に呼応するようにこの20年で急速に発展し、コンシューマ向け、ビジネスユース向けを問わず実際の社会で製品に用いられる技術となりました。そしてこの発展傾向は近年も継続しており、更なる急速な発展が予想されます。

その一方で、コンピュータビジョンは必要な周辺分野の知識が高度かつ多岐にわたり(機械学習、人工知能、ロボット制御、信号処理、物理、数学、神経科学など)、専門で勉強しない限りなかなか理解するのは難しい分野です。ですが、この連載で紹介していくようにコンピュータビジョンは身近な存在になってきており、そろそろ一般の人でも基礎的なところは知っていないとまずいくらいに普及が加速していると考えています。

また、カメラがあれば何処にでも適用できるという性質がゆえ、他の専門分野と比べるとアプリケーション例があまりにも多く、コンピュータビジョンの全てを俯瞰するのはなかなか難しいのが現状です。

加えて、この十年程で急速に発展した技術分野であるがゆえ、初学者向けや専門外の方向けに解説されている記事や書籍などはまだまだ少なく、世の中で広く使われているのにもかかわらず一般の人には各技術の仕組みがブラックボックスのままだともいえます。

これらのような背景から、今回、幸いにもこのような情報発信の場を提供いただけることになりました。この連載を通じてコンピュータビジョンの技術がどこに使われているかを整理していくことで、コンピュータビジョンの認知度が少しでも高まれば幸いです。

  • <<
  • <

1/85

インデックス

連載目次
第85回 点群応用(建築編) - LIDARを用いた高精度/広域3Dスキャン
第84回 点群応用(建築編) - 3Dスキャンが活きる建築物の規模
第83回 点群応用(建築編) - 高精度かつ広域な建築物の3Dスキャン
第82回 まだまだ使える人が少ない3D点群処理
第81回 3Dデータで処理を行う利点とは?
第80回 点群データを取得・解析する技術「3D点群」はデプスセンサと何が違うのか?
第79回 動きに反応して映像が変わるインタラクティブなプロジェクションマッピング
第78回 プロジェクションマッピングの原理
第77回 「プロジェクションマッピング」とはどういったものか?
第76回 顔や視線でコントロール
第75回 手や指の動きだけでコントロール
第74回 3Dジェスチャー認識のおおまかな原理
第73回 全身の人物姿勢情報を活用したアプリ例 - 腕の動きからのジェスチャー認識
第72回 Kinectはどのように人物姿勢推定の性能を向上させたのか?
第71回 Kinectの人物姿勢推定手法は学習時にどのような処理を行っているのか?
第70回 どうやってKinectは人体パーツを識別しているのか?
第69回 「人体パーツ識別技術」により実現されているKinect向け人物姿勢推定技術
第68回 まだ完全には解けていない人物姿勢推定の問題
第67回 3D人物姿勢推定の仕組みとナチュラルユーザーインタフェース
第66回 3Dデプスセンサーーを用いた注目の新ベンチャー企業(後編)
第65回 3Dデプスセンサーを用いた注目の新ベンチャー企業(前編)
第64回 アクティブステレオ方式とは違う3D形状の動画計測方式 - ToF形式
第63回 Kinectで3D撮影を行うための条件
第62回 モーションセンサとして見た場合のKinect
第61回 Kinectセンサの動作原理を読み解く
第60回 kinectを用いたビジネスのアイデアを競う「Kinect for Windows Contest」
第59回 Kinectがもたらしたセンシング革命
第58回 Kinectの登場がもたらしたコンピュータビジョン革命
第57回 Kinectなどで使われるデプスセンサを用いた3Dコンピュータビジョン技術
第56回 組込分野でのコンピュータビジョンは使いやすくなったのか(後編)
第55回 組込分野でのコンピュータビジョンは使いやすくなったのか(前編)
第54回 デジタルビデオの安定化処理の注意点
第53回 デジタルビデオの安定化処理の手順
第52回 デジタルビデオの安定化技術の概要
第51回 2種類のオプティカルフローの計算手法
第50回 画素ごと独立した移動量パラメータを割り当てる「オプティカルフロー」
第49回 パラメトリックモーション - 特定の1つの動き表現モデル
第48回 デジタルビデオ安定化技術
第47回 動画に対するシーム・カービング
第46回 メッシュ変形ベースのリターゲティング手法
第45回 重要度マップへの「主観」の追加
第44回 自動作成を行うために用いられることの多い3つの重要度マップ手法
第43回 元画像を「縮小」する時に自然にリサイズする技術 - リターゲティング
第42回 漫画カメラで使われる漫画風画像生成とトゥーンシェーディングの違い
第41回 iPhoneアプリ「漫画カメラ」で使われている画像処理手法その2
第40回 iPhoneアプリ「漫画カメラ」で使われている画像処理手法その1
第39回 iPhoneアプリ「漫画カメラ」に見るコンピュータビジョンの実応用例
第38回 パッチマッチによる画像編集の1つ - リシャッフリング
第37回 パッチ探索をランダムに実行することで高速化を目指す「パッチマッチ」
第36回 インペインティングの手法の1つ - パッチベースの手法
第35回 2つの目的で使われるコンピュータビジョンのインペインティング
第34回 人工知能/ロボット応用で使われるコンピュータビジョン技術(後編)
第33回 人工知能/ロボット応用で使われるコンピュータビジョン技術(前編)
第32回 ホモグラフィ変換における画像間のレジストレーション処理
第31回 張り合わせ先の座標系モデルと移動量の算出
第30回 各画像の「移動量」と「変形量」の算出による特徴点の対応づけ
第29回 キーポイントの検出とSIFT記述子の計算
第28回 パノラマ画像の生成手順
第27回 "画像の張り合わせ"で手軽に作れるようになったパノラマ画像
第26回 身近になったコンピュータビジョン技術を用いた写真・映像の編集技術
第25回 進むステレオカメラのDepth Mapを用いた3D道路表面モデリングの研究
第24回 車線逸脱警告システムにおけるレーン検出の仕組み
第23回 パーティクルフィルタによる観測技術
第22回 前方衝突防止システム - 人物をトラッキングする手法
第21回 前方衝突防止システム - 「平行等位ステレオ」による3次元形状復元
第20回 ビジョンべースの自動車運転手支援システム - 前方衝突防止システム
第19回 MAP推定はどのように行われるのか
第18回 超解像の計算アルゴリズム「MAP推定」
第17回 超解像で高画質化処理を担当する「ボケ補正」
第16回 入力画像が2枚以上(動画)の場合における画像レジストレーション
第15回 1枚画の静止画における画像レジストレーション
第14回 画像の劣化に対する「高解像度化」と「高画質化」のための3つの技術
第13回 超解像における劣化関数で改善すべき2種類の劣化
第12回 高解像かつ高画質の映像を作り出す技術 - 超解像
第11回 「顔検出」を高速化する技術
第10回 顔検出の主流アルゴリズム「Viola-Jones法」
第9回 人間の顔があるかを判断する「顔検出」技術(2) - テンプレートマッチング
第8回 人間の顔があるかを判断する「顔検出」技術(1) - 「顔検出」と「顔認識」
第7回 拡張現実感「AR」(3) - 「ARToolkit」の登場によりARが一気に普及期へ
第6回 拡張現実感「AR」(2) - マーカ有りARとマーカレスARの仕組み
第5回 拡張現実感「AR」(1)
第4回 動画編集技術「マッチムーブ」(3)
第3回 動画編集技術「マッチムーブ」(2)
第2回 動画編集技術「マッチムーブ」(1)
第1回 身近なものとなってきたコンピュータビジョンの世界

もっと見る



関連製品をチェック

人気記事

一覧

イチオシ記事

新着記事