マッチムーブとARの比較

勘のよい方であれば「あれ、マッチムーブってARと一緒じゃないの?」と気づかれたことと思います。それは正しい理解で、実質行っていることは全く同じです。

ただし、両者には以下のような違いがあります。

  • マッチムーブ:映画のように一旦録画した映像のカメラ視点変化を計算して、3DCGを合成する技術。精度が完璧ではないので、マッチムーブソフトウェアにより計算したカメラと3次元特徴点群のデータをインポートして、CGソフトにより手作業でマッチングする(つまり、SFMソフトウェアで計算した地形データは映像中の地形とカメラ位置とは多少なり誤差があり、そのままこの計算結果の地形変化にCGを置くとズレる。よって、CGソフトにインポートしたのち、手作業でCGの表示位置を調整する)
  • AR:携帯電話のカメラやWebカメラなど、風景を移しているリアルタイムのカメラ映像に3DCGを合成する技術。つまり予めCGを表示する場所は決めておいて、そのCGをリアルタイムに表示する。よって、SFMの結果の精度が悪いとそのぶん表示位置が不自然になる。

両者は録画した映像に後処理で表示させるか、リアルタイムの映像に随時表示するかが違うだけです。

当然ながらこの違いにより3次元座標の計算に使える時間が違ってきます。ARの場合すぐに表示させないといけない分、短時間で計算を行う必要があり、以前はそこまでの精度は出ませんでした。

PTAM

ARにも「PTAM」という新技術が近年登場し、これまでは処理時間がかかり後処理でないとStructure from Motionを行うことが厳しかったのが、リアルタイムに撮影中の動画にも、これまでの上記で紹介したようなソフトウェアを用いて録画した映像を後処理するのと同等のレベルでStructure from Motionを行いARすることが可能になりました。

以下の「PATM」のデモをご覧ください。これはPTAMを開発した作者が京都で撮影した映像にリアルタイムでARを表示させたもので、この京都の石庭でダースベイダーが戦っているところは発表当時すごく話題になったので専門の技術者には有名な動画です。

まとめと今後の展開の予想

今回は、映像中の三次元幾何とカメラ姿勢を算出するStructure From Motionという技術を用いた「マッチムーブ」によるCG合成編集技術について紹介しました。

今後の技術的な発展を簡単にだけ予想しておきます。現在のSFMは、紹介した通り撮影した動画中の地形の3D構造を算出するまでですが、今後はそれらと同時に「照明環境(ライティング)」も復元できるような技術が登場する可能性があります。つまり、撮影した映像中で、どこからどれくらいの光がどのくらいの強度でどういう分布で照らされているかを推定し、CGを重ね合わせるときにもその推定した光源情報をもとに映像にとけ込むライティングを自動的にできるというものが出てくるかもしれません。

現状CG側のライティングはCGソフト上で任意に作成しており、編集するときになるべく元の映像とCGのライティングを合わせるという技術が必須です。もしこのような自動的にライティングも抽出してくれる技術が出てくると、全自動で元の映像の照明環境を再現してくれるようになるわけです。

これにより「幾何」と「照明」の両方を計算機が抽出してくれるようになれば、誰でも簡単に3D CG合成ができるようになる時代になり、かつ高度なCG合成技術がいろんな映像に適応されやすくやるわけです。今よりもいっそう写真や動画を本当に実写か疑わないといけない日が来るかもしれませんね。