KDDI総合研究所は10月9日、単眼のカメラ映像から骨格などの動きを捉え、スクワットなど31種類のトレーニング動作や姿勢を認識する「宅内行動認識AI」を開発したと発表した。
宅内行動認識AIは、人物の動きを認識するとともに深度センサなどを用いなくても単眼カメラのみで動いているときの姿勢を把握することができるという。従来の画像の色の特徴や動きの特徴に加え、骨格の構造や動きの制約を考慮して18カ所の骨格を深層学習により抽出・補正し、骨格間の角度や比率などの時系列変化を認識。
これにより、スクワットを実施する場合、回数のカウントだけでなく、膝の角度が閾(しきい)値以上曲がっているかどうかや膝がつま先よりも前に出ていないかどうかをチェックし、AIがトレーナーのように改善すべき姿勢を音声や映像で知らせることを可能としている。
他の30種類のトレーニングについても、それぞれのトレーニングに応じたアドバイスを行い、一回の動作におけるテンポもチェックし、早すぎたり遅すぎたりしても音声や映像で知らせる。
また、スマホなどで撮影した映像を160px×160pxの低解像度にしても精度を落とさずに動作を認識できるため、サーバとのやり取りもネットワークの通信速度の影響を受けにくく、AIのトレーナーがリアルタイムでアドバイスをすることができるという。
同研究所は、トレーニング以外の食べる、本を読むなど約60種類の行動についても人物を特定できる明るさの環境で深度センサを用いた場合と同等の約89.3%の認識精度を達成している。
今後、トレーニング行動を中心に行動認識の精度を向上し「宅内行動認識AI」の実用化に向け取り組む。さらに、さまざまな明るさでの高精度な認識など、ロバスト性を解決し、宅内環境だけでなく、宅外など多様な環境下でも正確かつ詳細な行動を認識可能なAIの研究開発を進めていく考えだ。