Machine Learning for Human Action Recognition and Pose Estimation based on 3D Information - ETIS, équipe MIDI Accéder directement au contenu
Thèse Année : 2019

Machine Learning for Human Action Recognition and Pose Estimation based on 3D Information

Apprentissage automatique pour la reconnaissance d'action humaine et l'estimation de pose à partir de l'information 3D

Résumé

3D human action recognition is a challenging task due to the complexity of human movements and to the variety on poses and actions performed by distinct subjects. Recent technologies based on depth sensors can provide 3D human skeletons with low computational cost, which is an useful information for action recognition. However, such low cost sensors are restricted to controlled environment and frequently output noisy data. Meanwhile, convolutional neural networks (CNN) have shown significant improvements on both action recognition and 3D human pose estimation from RGB images. Despite being closely related problems, the two tasks are frequently handled separated in the literature. In this work, we analyze the problem of 3D human action recognition in two scenarios: first, we explore spatial and temporal features from human skeletons, which are aggregated by a shallow metric learning approach. In the second scenario, we not only show that precise 3D poses are beneficial to action recognition, but also that both tasks can be efficiently per- formed by a single deep neural network and still achieves state-of-the-art results. Additionally, we demonstrate that optimization from end-to-end using poses as an intermediate constraint leads to significantly higher accuracy on the action task than separated learning. Finally, we propose a new scalable architecture for real-time 3D pose estimation and action recognition simultaneously, which offers a range of performance vs speed trade-off with a single multimodal and multitask training procedure.
La reconnaissance d’actions humaines en 3D est une tâche difficile en raison de la complexité de mouvements humains et de la variété des poses et des actions accomplies par différents sujets. Les technologies récentes basées sur des capteurs de profondeur peuvent fournir les représentations squelettiques à faible coût de calcul, ce qui est une information utile pour la reconnaissance d’actions. Cependant, ce type de capteurs se limite à des environnements contrôlés et génère fréquemment des données bruitées. Parallèlement à ces avancées technologiques, les réseaux de neurones convolutifs (CNN) ont montré des améliorations significatives pour la reconnaissance d’actions et pour l’estimation de la pose humaine en 3D à partir des images couleurs. Même si ces problèmes sont étroitement liés, les deux tâches sont souvent traitées séparément dans la littérature. Dans ce travail, nous analysons le problème de la reconnaissance d’actions humaines dans deux scénarios: premièrement, nous explorons les caractéristiques spatiales et temporelles à partir de représentations de squelettes humains, et qui sont agrégées par une méthode d’apprentissage de métrique. Dans le deuxième scénario, nous montrons non seulement l’importance de la précision de la pose en 3D pour la reconnaissance d’actions, mais aussi que les deux tâches peuvent être efficacement effectuées par un seul réseau de neurones profond capable d’obtenir des résultats du niveau de l’état de l’art. De plus, nous démontrons que l’optimisation de bout en bout en utilisant la pose comme contrainte intermédiaire conduit à une précision plus élevée sur la tâche de reconnaissance d’action que l’apprentissage séparé de ces tâches. Enfin, nous proposons une nouvelle architecture adaptable pour l’estimation de la pose en 3D et la reconnaissance de l’actions simultanément et en temps réel. Cette architecture offre une gamme de compromis performances vs vitesse avec une seule procédure d’entraînement multitâche et multimodale.
Fichier principal
Vignette du fichier
72722_CARBONERA LUVIZON_2019_archivage.pdf (10.69 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02492463 , version 1 (27-02-2020)

Identifiants

  • HAL Id : tel-02492463 , version 1

Citer

Diogo Luvizon. Machine Learning for Human Action Recognition and Pose Estimation based on 3D Information. Computer Vision and Pattern Recognition [cs.CV]. Cergy Paris Université, 2019. English. ⟨NNT : ⟩. ⟨tel-02492463⟩
318 Consultations
363 Téléchargements

Partager

Gmail Facebook X LinkedIn More