東京大学 生産技術研究所(東大生研)は、頭部装着型カメラによって記録された「一人称視点映像」から、人の視線の動きを高精度で予測する手法を開発したと発表した。

同成果は、同大生産技術研究所ソシオグローバル情報工学研究センターの佐藤洋一 教授、サイ・ビンショウ特任研究員、同大大学院情報理工学系研究科電子情報学専攻のホワン・イーフェイ博士課程1年生、リ・シンキョウ修士課程2年生の研究グループによるもの。詳細は、「European Conference on Computer Vision(ECCV 2018)」にて発表された。

認知科学や視覚心理の分野では、同じ対象を見る場合でも、人は行っているタスクによって、その視線の動きが大きく異なることが知られていたが、既存の視線予測の取り組みでは、具体的な手法として確立することは困難とされていた。

そこで同グループは、深層学習を用いた画像解析におけるアテンションモデルから着想を得て、タスクに依存する視線移動のパターンを考慮することにより、一人称視点映像から高い精度で視線位置を予測できる手法を開発したという。

  • 開発された手法の概要

    今回開発された手法の概要(出所:東京大学生産技術研究所Webサイト)

これにより、例えば、人がキッチンで料理をする際に、どのタイミングでどのような物からどのような物へ視線が動くのかを、その作業中に記録した一人称視点映像と視線データから事前に学習することで、他の映像における視線移動を高精度で予測できるようになったとしている。

また、同手法は、一人称視点映像解析の研究に用いられる標準ベンチマークデータセットを利用した評価実験において、最新の既存手法と比較し、予測精度を約40%改善することができたとのことだ。

同グループは今後、より多くのタスク実行時の一人称視点映像を用いた評価や、ものづくりの現場における技能の伝承、自閉症スペクトラム障害の早期スクリーニング、自動車の運転手の視認行動分析といった、多分野への適用に取り組む予定としている。