映像内の人や物の関係性を高精度に推定可能なシーングラフ生成技術、富士通

富士通は8月22日、映像に映っている人と「ヒト・モノ・環境」の関係性を認識するために重要な対象領域を自動で抽出し、シーン全体の状況を的確に識別可能なシーングラフ生成技術を開発したことを報告した。シーングラフとは、画像中のオブジェクト同士の関係性をグラフ構造で表したものだ。

この技術により、映像に映る人や物体の種類を識別するだけではなく、それら人や物体の位置関係（on、behind、aboveなど15種類）と作用状態（have、wear、eatなど35種類）を認識し、シーングラフとして生成できるようになったという。

シーングラフの概要

近年はディープラーニング技術が発展しており、映像から人や物体を認識する技術の社会実装も進んでいる。これらの技術は、店舗内での人の動線分析や、監視カメラ映像における不審者の検出などに応用されている。

一方で、「商品を見ながら男女が会話している」「棚の上に立ちながら大きな箱を複数人で持っている」など、人や物体の有無に加えてそれらの間の関係性を含めた状況を理解することは難しく、AI（Artificial Intelligence：人工知能）による自動化は進んでいない。

従来のシーングラフ生成における課題は以下の2点だ。1点目として、シーングラフを生成する際は、画像内で検出された物体をバウンディングボックス（矩形の枠線）に従って切り出していたため、その周辺の情報が欠落することで物体間の関係性を正しく認識できていなかった。

下図の例では、猫と花を検出できても、その周囲にある部屋全体の構造やテーブルなどの位置関係の情報が欠落してしまうため、猫と花の関係性までは正しく推定できなかった。

従来技術では猫と花の位置関係までは推定できない

2点目の課題は、シーングラフ生成のために使用する教師データ画像について、人の手で正解を付与する作業（アノテーション）が行われているため、アノテーション漏れなどが生じると誤って学習してしまう要因になっていたことだ。

本来は検出すべき物体やその関係性が画像内に存在するにもかかわらず、アノテーション漏れがあった場合には「その物体や関係性を検出してはいけない」と学習してしまい、精度の向上を阻害していたという。

「家」「ベンチ」「犬」などのアノテーションが漏れている画像

そこで同社が開発した技術は2つ。まず、物体の関係性が推定できない課題に対して、関係性を認識する上で重要な対象領域を画像全体から抽出する方式を開発した。同技術では、画像から2つの物体（オブジェクトとサブジェクト）の特徴量を抽出すると同時に、これらのペア特徴量と画像全体の各画素との相関を取る。これにより、認識する物体の周囲にある重要な領域まで認識できるようになるとのことだ。

さまざまな物体が写った画像データセットを用いて関係性の認識精度が高くなるように学習した関係性アテンションマップを用いて、サブジェクトとオブジェクトの関係性を推定することで、2つの物体の領域以外にも、関係性の推定に重要な対象領域の情報を考慮できるため高精度な推定が可能となった。

対象領域を自動で検出する仕組み

また、アノテーション漏れによって学習性能が阻害されてしまう課題に対しては、画像内の関係性を正しく認識するために、疑似的なアノテーションデータを作成してデータを補う方式を開発した。一度学習済みのモデルが生成したシーングラフを疑似的なアノテーション後のデータとして教師データに追加し、モデルを再学習するファインチューニングを行うことで、さらなる高精度化が可能になったとのこと。

富士通の研究本部でヒューマンセンシングプロジェクトのプロジェクトマネージャーを務める豊田雄志氏によると「学習データ全体の中では正しいアノテーションと比較してアノテーション漏れが少ないため、一度学習したモデルを用いて学習画像のシーングラフを生成すると漏れていたアノテーションの多くが検出できることに着目した技術」なのだという。

疑似的なアノテーションデータを使って再学習することで、精度が向上したという

富士通研究本部コンバージングテクノロジー研究所ヒューマンセンシングプロジェクトプロジェクトマネージャー豊田雄志氏

同社によると、物体の種類が150種類、関係性が50種類定義されたシーングラフ生成における世界標準の公開データセット「Visual Genome」を用いて、今回開発した新技術を評価したところ、認識性能が従来技術から40%以上向上したとのことだ。

従来技術から40%以上精度が向上したという

同社は今回開発した技術について、行動認識AI「行動分析技術 Actlyzer（アクトライザー）」の機能としての実装を進める。小売業における購買意欲の推定による店舗運営の改善などをまずは目指すようだ。さらに、映像監視での危険行為の認識、向上における作業分析などの分野で実証を進め、2023年度内の実用化を目指すとしている。

豊田氏と同じくヒューマンセンシングプロジェクトに携わる山本琢麿氏は「開発当初は何をやっても認識精度が下がってしまっていた。オブジェクトとサブジェクトの関係性を認識する技術に着手してからは精度が徐々に上がり始めたが、それでもまだ不十分だった。解決策を探るために教師データをぼんやりと眺めていたところ、アノテーション漏れが多いことに気付けたので、最後の一押しとなる改良策を思い付けた」と開発時の苦労を語っていた。