電気通信大学(電通大)は7月3日、AI技術のひとつである深層ニューラルネットワーク(DNN)モデルを用いて実験を行った結果、ヒトは複雑な特徴を持つ場所をより速く、より高頻度に見る傾向にあることを明らかにした。

同成果は、電通大 情報理工学研究科の赤松和昌研究支援員、同・西野智博学部生(研究当時)、同・宮脇陽一教授らの研究チームによるもの。詳細は、英オンライン総合学術誌「Scientific Reports」に掲載された。

ヒトの目の解像度は視野の中心が最も高いことが知られており、視線を向けるということはその場所を視野の中心で捉えるということになる。つまり、視線を向ける場所は、ヒトが視覚的に情報を取得する上で重要な場所であると考えられるという。

これまで多くの先行研究において、ヒトが視線を向ける場所を予測するコンピュータ用のプログラムが開発されてきた。しかし、こうしたプログラムは明るさや色などの画像を特徴づける量である特徴量と、ヒトが視線を向けた位置についてのデータを組み合わせて学習することで、視線を向ける場所の予測が行われている。

そのため、視線予測のプログラムの学習が柔軟すぎるためその特徴量に視線が惹きつけられたのか、あるいはプログラムが柔軟に学習してしまったために視線が予測できてしまっているのかの区別がつかないことが課題だったという。

そこで研究チームは今回、DNNネットワークモデルを用いて段階的な複雑度を持つ特徴量を画像から抽出し、その画像を見ている時のヒトの注視を調査したとする。

DNNモデルは複雑度の異なる画像の特徴量に反応する多階層からなっているためその性質を利用。まず、ヒトに見てもらう自然なシーンをDNNモデルに入力し、その時の各層の反応を層を遡るように逆にたどることで、入力した画像中のどこにどの程度の強さで反応のもとになった特徴量が分布しているのかを「特徴量マップ」として可視化したとする。同マップは、明るさのコントラストやエッジのような単純な画像特徴量に対応する第1層から、最も複雑な画像特徴量に対応する第5層までの5種類が作成された。

  • 特徴量マップの作成

    特徴量マップの作成。自然なシーン画像をDNNモデルに入力し、それぞれの層に対応する画像特徴量が、画像中のどこにどの程度分布しているのかを表す特徴量マップが作成された。DNNモデルでは、層が入力側に近いほど単純な画像特徴量に対応し、入力側から遠くなるほど複雑な画像特徴量に対応(出所:電通大)

次に、自然なシーン画像590枚を実験参加者(成人20名)に提示し、画像を自由に観察している間の視線を視線計測装置で計測。このデータに対して、視線を向けた点の周辺の小領域にどのような画像特徴量がどのくらい含まれているのかが計算され、これを画像観察中のすべての視線の移動先に対して求めたとする。さらに、全画像に対して同じ処理が施された後、それらの結果が平均されたという。

  • 注視誘引度の計算方法

    注視誘引度の計算方法。視線を向けた点の周辺にどのような画像特徴量がどのくらい含まれているのかが計算される。これを画像観察中のすべての視線に対して計算した後、すべての提示画像に対しての結果を平均することで、どのような種類の画像特徴量がいつ、どの程度よく見られていたかが求められた(出所:電通大)

これにより、どのような画像特徴量がどの時点でよく見られるのかを求めることができ「注視誘引度」と定義。注視誘引度は、画像特徴量の種類によって変わるので、それぞれの条件ごとに分けて、注視誘引度の時間変化が解析された。

その結果、DNNの対応する層が深くなるにつれて(=画像特徴量が複雑になるにつれて)、画像観察中の時間全体的を通して平均的に高頻度で視線が向けられることが判明。また、画像提示後すぐの時間で特に視線がよく向けられる傾向も強くなっていくことが明らかにされた。そして最も深い第5層においては、この傾向が最も顕著であったという。

また、従来から視線の予測に使われていた画像特徴量である「顕著性」(今回の研究での顕著性は、明るさのコントラスト、色のコントラストとエッジの鮮明さから計算された)との比較も行われ、結果、第5層に対応する画像特徴量の方が速くよく見られることが確かめられた。つまり、単純な画像特徴量よりも複雑な画像特徴量はより速く、より高頻度に視線が向けられやすいことが立証されたのである。

  • 各画像特徴量に対する注視誘引度の時間変化

    各画像特徴量に対する注視誘引度の時間変化(横軸の0は、画像提示開始時刻)。DNNの第5層に対応する画像特徴量の注視誘引度は、画像提示直後に大きなピークが示され、かつ全時刻にわたって平均的に高い。つまり、DNNの第5層に対応する画像特徴量は、より速く、より高頻度に見られる、ということが示されているとした(出所:電通大)

研究チームは、今回の結果をふまえ複雑な画像特徴量がより多く含まれるように人工的に操作した画像を生成して道路標識や広告などに応用することで、所定の場所へと注視を誘導できる可能性があるとしている。また今後、複雑な画像特徴量を注視しやすいという現象が、ヒトの脳内のどこでどのように生じているのかを研究していくことが重要だとし、引き続きヒトの視覚情報処理と視線移動の仕組みについて解明していきたいとしている。