【連載】

機械の目が見たセカイ -コンピュータビジョンがつくるミライ

31 見えないものを観る(1) - 映像から音を復元する

31/37

カメラで撮影した映像から、音を復元する技術をご存知でしょうか? スパイ映画に出てきそうな技術が、「SIGGRAPH 2014」で発表されました。「ビジュアルマイクロフォン(Visual microphone)」と呼ばれる技術です。映像のみから音声を復元した結果をまずはご覧ください(動画1)。

映像のみから音声を復元

ビジュアルマイクロフォン技術の概要

ビジュアルマイクロフォンの概要は図1、図2の通りです。音の振動が物体(ポテトチップスの袋など)に伝わることで、物の表面がごく僅かに振動します。その僅かな振動を映像から抽出することにより、ポテトチップの袋の映像から、音声を復元するという仕組みです。この論文では、ポテトチップスの袋の他に、グラスに入った水、観葉植物の葉、箱ティッシュなどから音を復元することに成功しています。

図1 ビジュアルマイクロフォンの概要1

図2 ビジュアルマイクロフォンの概要2

音は空気の振動です。音楽のコンサートに行ったことのある方は体感したことがあると思いますが、音の振動は物を震わせます。物の振動を記録すというのが、マイクロフォンの原理です。ビジュアルマイクロフォンも物の振動から音を抽出するという意味では同じですが、肉眼ではまったく見えないほどの微細な振動を映像のみから抽出して音を復元します。初めて論文を目にした時はかなり衝撃的でした!

ビジュアルマイクロフォン技術の特徴

論文によると、音による振動はマイクロメートル(1/1000ミリ)単位です。映像上では数千分の1ピクセル分の微小な変動でしかありません。本連載の第9回「カメラを用いた3次元計測(3) - サブピクセル推定」でご紹介したサブピクセル推定技術では、十分の1、どんなにがんばっても数十分の1ピクセルの精度が限界です。しかし、この論文では画像全体のわずかな色の変化から微細な動きを抽出する手法を用いて音を復元することに成功しており、大変興味深い技術です。

スパイ映画に登場する夢のような技術ですが、音の高周波成分を抽出するためには、1秒に1000フレーム以上を撮影できるハイスピードカメラが必要です。しかし、この論文では、一般的な民生用カメラで撮影した動画から音を再現する試みも興味深い点です。

民生用カメラによるビジュアルマイクロフォン

ハンディカムなどの民生用カメラでは最大でも120fps程度までしか撮影できません。この論文の興味深いもう1つのアイデアは、多くのCMOSイメージセンサで採用されているローリングシャッターの仕組みを利用することです。CMOSイメージセンサは、高解像度化の難しいCCDイメージセンサに取って代わって、ほとんどのカメラ機器で使われています。そして、多くのCMOSイメージセンサは、グローバルシャッターではなくローリングシャッターという方式を採用しています。グローバルシャッターが、全画素同じタイミングでシャッターを切るのに対し、ローリングシャッターでは画像の各行ごとに順次シャッターを切ります。つまり、行ごとに僅かに撮像タイミングが異なるわけです。

ローリングシャッターでは、各行ごとに撮像タイミングが異なるため、動いている物体が歪んで撮像されてしまいます。例えば、直線の物体が曲線として撮影されてしいます。このローリングシャッターのデメリットを逆手にとって、撮像タイミングの異なる各行ごとに振動を抽出することで、サンプリングレートを向上させることができるわけです。この手法により、高速度カメラを用いた場合よりも復元精度は劣りますが、民生用カメラで音を復元することに成功しています。

Computer Visionの多くの技術は、まだまだ人間の目の能力には勝てていませんが、今回ご紹介したビジュアルマイクロフォン技術のように、高周波かつ微細な動きを計測する場合は明らかに人間の能力に優っています。

また、現在の技術力では、高スペックなカメラとレンズを用いない限り、話している内容が聞き取れるほどの音声復元精度は得られません。今後の技術の発展により、携帯電話に搭載されているカメラでも音声を復元できる日がくるかもしれません。ビジュアルマイクロフォンについて詳しく知りたい方は参考文献[1]を読んで見てください!

参考文献

[1] DAVIS, A., RUBINSTEIN, M., WADHWA, N., MYSORE, G., DURAND, F., AND FREEMAN, W. T. The visual microphone: Passive recovery of sound from video. ACM Transactions on Graphics (Proc. SIGGRAPH) 33, 4 (2014), 79:1-79:10.

著者プロフィール

樋口未来(ひぐち・みらい)
日立製作所 日立研究所に入社後、自動車向けステレオカメラ、監視カメラの研究開発に従事。2011年から1年間、米国カーネギーメロン大学にて客員研究員としてカメラキャリブレーション技術の研究に携わる。

日立製作所を退職後、2016年6月にグローバルウォーカーズ株式会社を設立し、CTOとして画像/映像コンテンツ×テクノロジーをテーマにコンピュータビジョン、機械学習の研究開発に従事している。また、東京大学大学院博士課程に在学し、一人称視点映像(First-person vision, Egocentric vision)の解析に関する研究を行っている。具体的には、頭部に装着したカメラで撮影した一人称視点映像を用いて、人と人のインタラクション時の非言語コミュニケーション(うなずき等)を観測し、機械学習の枠組みでカメラ装着者がどのような人物かを推定する技術の研究に取り組んでいる。

専門:コンピュータビジョン、機械学習

31/37

インデックス

連載目次
第37回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(3)
第36回 領域分割(3) - CRFを用いたSemantic Image Segmentation
第35回 領域分割(2) - Mean Shift法を用いたImage Segmentation
第34回 領域分割(1) - 概要編
第33回 見えないものを観る(3) - 目に見えない光「赤外線」を観る
第32回 見えないものを観る(2) - 絵画の下書きを観る
第31回 見えないものを観る(1) - 映像から音を復元する
第30回 動く人・物を追跡する(4) - OpenCVのトラッキング手法(後編)
第29回 動く人・物を追跡する(3) - OpenCVのトラッキング手法(中編)
第28回 動く人・物を追跡する(2) - OpenCVのトラッキング手法(前編)
第27回 動く人・物を追跡する(1) - OpenCVによるトラッキング
第26回 インターネット上の画像群からTime-lapse映像を自動生成する手法の概要
第25回 一人称視点(3) - Social Saliency
第24回 一人称視点(2) - Social Interaction
第23回 一人称視点(1) - 概要
第22回 行動認識(3) - Two-stream ConvNets
第21回 行動認識(2) - 動きの特徴量(HOF、MBH)
第20回 行動認識(1) - Dense Trajectories
第19回 視線計測(3) - カメラのみを用いた視線計測
第18回 視線計測(2) - 近赤外の点光源を用いた視線計測
第17回 視線計測(1) - 導入編
第16回 コンピュータビジョン分野における機械学習(4) - Deep Learning
第15回 コンピュータビジョン分野における機械学習(3) - 識別器
第14回 コンピュータビジョン分野における機械学習(2) - 顔検出・人検出
第13回 コンピュータビジョン分野における機械学習(1) - 導入編
第12回 コンピュータビジョン分野の市場分析(1) - 自動車編
第11回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(2)
第10回 カメラを用いた3次元計測(4) - Structure from Motion
第9回 カメラを用いた3次元計測(3) - サブピクセル推定
第8回 カメラを用いた3次元計測(2) - ステレオカメラ
第7回 コンピュータビジョン分野で活躍する企業・フリーランサー インタビュー(1)
第6回 カメラを用いた3次元計測(1)
第5回 意外と知らないカメラキャリブレーション
第4回 ハードウェアの基礎知識
第3回 コンピュータビジョンの要素技術と応用範囲(後編)
第2回 コンピュータビジョンの要素技術と応用範囲(前編)
第1回 普及期に入ったコンピュータビジョン

もっと見る



人気記事

一覧

イチオシ記事

新着記事