東京科学大学(科学大)は11月10日、一般的な三次元計測技術である「構造化光法」では計測が困難な運動する物体の高精度な三次元計測を可能とする新技術として「ニューラルインバースレンダリング」(NIR)を開発し、その性能を実証したことを発表した。
同成果は、科学大 工学院 情報通信系の浦川雄気大学院生(研究当時)と同・渡辺義浩准教授の研究チームによるもの。詳細は、10月19日~23日にハワイ・ホノルルで開催されたコンピュータビジョンの国際会議「ICCV 2025」にて口頭発表された。
映像制作やデジタルツインの技術革新に期待
三次元計測技術の1つに、プロジェクタからパターン光を物体に投影し、その反射パターンをカメラで撮像することで、三角測量の原理により物体の形状を求める「構造化光法」がある。
構造化光法の代表的な方式である「位相シフト法」は、複数枚の正弦波パターンを順に投影し、得られた画像の位相情報から形状算出を行う。この方式は、少ない投影枚数で、静止物体の高精度・高解像度な形状取得を行える点が優れた点だ。だが、動く対象の計測では、各パターンを撮像する度に物体の位置が変化してしまう。そのため、プロジェクタとカメラの画素の対応関係がずれてしまうため、正確な形状を再現できないという課題があった。
-

従来の複数パターン投影による三次元計測(左)では、運動物体に対して形状誤差が発生していた(中央)。これを解決するため、高精度かつ高解像度な形状再構成を実現するNIRが今回提案された(右)(出所:科学大プレスリリースPDF)
そこで研究チームは今回着目したのが、撮像された画像から、その撮像シーンを構成する幾何情報(形状)や反射特性などを逆推定する技術である「インバースレンダリング」だ。今回の研究では、ニューラルネットワークの高い表現力を付加したインバースレンダリングの枠組みを活用し、かつ複数視点の情報を組み合わせることで、運動物体の複雑な三次元形状を高精度に再構成する手法を開発したという。
-

NIRの概要。(左)変位場に基づく動作モデルを組み込んだネットワーク全体の構成。(右)ネットワークの出力結果を用いて、1台のプロジェクタと複数のカメラからなる構成で画像を生成する様子。生成された画像と実際に撮影・投影された画像との誤差を最小化することで、シーンの各パラメータを最適化する(出所:科学大プレスリリースPDF)
今回開発されたNIRは、物体の三次元形状、動作を表す変位場、物体表面の反射率、「残差成分」という4つのシーン情報を同時に最適化するように設計されている。残差成分とは、投影パターン以外の光や、投影パターンが二次反射することで生じる光成分を指す。特に、この変位場を用いて三次元空間上の位置や法線を複数のフレーム間で整合させることで、動きによって発生する形状の誤差を効果的に補正することが可能となる。なお変位場とは、画像上の各画素が観測した位置に対応する三次元空間での動きを表すベクトル場情報のこと。物体表面の時間的変化を表現するために用いられる技術である。
さらに最適化の過程では、実際に撮像・投影された画像と、推定された4つのシーン情報から生成される画像の誤差が最小化されるよう、ニューラルネットワークの学習が行われた。この時、1台のプロジェクタと2台のカメラによる3視点構成を活用し、以下の3通りの画像生成が行われた。
- プロジェクタの投影画像からカメラの撮像画像を生成
- カメラの撮像画像からプロジェクタの投影画像を生成
- 1台のカメラの撮像画像から別視点のカメラの画像を生成
その上で、生成画像をそれぞれ対応する実際の画像と比較。これにより、三次元形状や変位場などの再構成精度を向上させると共に、投影パターンの枚数が少なくても安定した再構成を可能とした。
-

NIR(右下)と従来手法(それ以外の3点)による形状再構成の比較結果。手法は、モーション補償およびニューラルネットワークの利用有無に基づいて分類された。従来手法では、周期的な縞状のアーティファクトや形状の歪みが見られる。NIRでは、わずかな枚数のシンプルな位相シフトパターンのみを用いた場合でも、高い精度と安定性が実現されている(出所:科学大プレスリリースPDF)
実験では、投影パターン枚数、パターンの空間周波数、物体の速度などを変化させながら、NIRが評価された。その結果、物体が動いている場合でも、わずか3枚の標準的な正弦波パターンのみで、平均誤差0.23mm程度の高精度な形状再構成が達成された。これは、静止対象に対する計測と同程度の精度を維持できることを示す。さらに、従来手法と比較しても、動的シーンでの再構成誤差を低減できること、そして剛体や非剛体を問わず、さまざまな形状や動作に対し、NIRが形状を正確に再構成できることの2点が実証された。
-

NIRの評価実験。左列から順に、通常照明下での対象の画像(入力として使用しない)、1台目のカメラによる1枚目の画像、ネットワークによって再構成された反射率、残差成分、変位場(x、y、z方向の運動をRGBの各色で表現)、3次元形状(出所:科学大プレスリリースPDF)
NIRは、構造化光法では避けられなかった動体計測時の誤差を克服し、動く物体の三次元形状を高精度かつ高解像度に再構成できる点が最大の特徴だ。そのため、製造業、デジタルツイン、文化財保存、映像制作、エンターテインメント、スポーツ分析、ロボットビジョン、拡張現実といった、ダイナミックに変化するシーンの三次元形状を必要とする幅広い分野での応用が想定され、新たな展開を生み出すことが期待されるとした。
公式動画「Neural Inverse Rendering for High-Accuracy 3D Measurement of Moving Objects」。(出所:YouTube「Watanabe Laboratory」)
研究チームは今後、再構成される三次元形状の精度向上や処理の高速化など、性能強化を目指すとする。今回の研究では、同時に最適化される情報のうち、三次元形状を主な成果として注目してきたが、副次的に得られる変位場からの動作の情報も、応用の場面で活用できる重要な情報として期待できることから、変位場のさらなる精度向上にも取り組む予定だという。そして、製造、分析、エンターテインメントなどの分野において、今回の技術が切り拓く新たな応用を具現化していく予定としている。