Summary: | La segmentation de personnes dans les images et les vidéos est une problématique actuellement au coeur de nombreux travaux. Nous nous intéressons à la segmentation de personnes debout. Pour cela, nous avons mis au point deux méthodes originales : La première est une continuation d'une méthode de détection efficace. On réalise une pré-segmentation en associant aux segments de contour de l'image une valeur de vraisemblance en tant qu'élément d'une silhouette humaine par une combinaison d'histogrammes de gradients orientés (HOG) et de machines à vecteurs de support (SVM) prises à l'échelle des ces segments. Une recherche d'arbre optimal dans un graphe intégrant les données de la pré-segmentation permet de reconstruire la silhouette de la personne. Enfin, une utilisation itérative de ce processus permet d'en améliorer la performance. La seconde méthode prend en compte l'interaction de l'utilisateur pour une image. Une coupe de graphe est guidée par un gabarit non binaire représentant une silhouette humaine. Nous proposons également un gabarit par parties pour s'adapter à la posture de la personne. Nous avons enfin transposé cette méthode à la segmentation de vidéos et la réalisation automatique de trimaps. === Human segmentation in images and videos is currently a difficult task. We are interested in the upright people class. We have realized two original methods. After a review of the state of the art, this thesis presents these two methods. The first one is the continuation of an effective segmentation method. The union of Histogramms of Oriented Gradients based descriptors (HOG) and of a Support Vector Machine (SVM) classifier at the contour segment scale provides a likelihood degree of being part of a human silhouette. The shortest path in a graph created from this data provides the segmentation. The second method is interactive. A graph cut is guided by a non-binary template of silhouette that represents the probability of each pixel to be a part of the person. In a second time, a part-based template is computed to be adapted to the person posture. This method can be transformed to segment videos or automaticaly produce trimaps.
|