Vision-based multi-sensor people detection system for heavy machines

Ce travail de thèse a été réalisé dans le cadre de la coopération entre l’Université de Technologie de Compiègne (UTC) et le Centre Technique des Industries Mécaniques (CETIM). Nous présentons un système de détection de personnes pour l’aide à la conduite dans les engins de chantier. Une partie du t...

Full description

Bibliographic Details
Main Author: Bui, Manh-Tuan
Other Authors: Compiègne
Language:en
Published: 2014
Subjects:
Online Access:http://www.theses.fr/2014COMP2156/document
Description
Summary:Ce travail de thèse a été réalisé dans le cadre de la coopération entre l’Université de Technologie de Compiègne (UTC) et le Centre Technique des Industries Mécaniques (CETIM). Nous présentons un système de détection de personnes pour l’aide à la conduite dans les engins de chantier. Une partie du travail a été dédiée à l’analyse du contexte de l’application, ce qui a permis de proposer un système de perception composé d’une caméra monoculaire fisheye et d’un Lidar. L’utilisation des caméras fisheye donne l’avantage d’un champ de vision très large avec en contrepartie, la nécessité de gérer les fortes distorsions dans l’étape de détection. A notre connaissance, il n’y a pas eu de recherches dédiées au problème de la détection de personnes dans les images fisheye. Pour cette raison, nous nous sommes concentrés sur l’étude et la quantification de l’impact des distorsions radiales sur l’apparence des personnes dans les images et nous avons proposé des approches adaptatives pour gérer ces spécificités. Nos propositions se sont inspirées de deux approches de l’état de l’art pour la détection des personnes : les histogrammes de gradient orientés (HOG) et le modèle des parties déformables (DPM). Tout d’abord, en enrichissant la base d’apprentissage avec des imagettes fisheye artificielles, nous avons pu montrer que les classificateurs peuvent prendre en compte les distorsions dans la phase d’apprentissage. Cependant, adapter les échantillons d’entrée, n’est pas la solution optimale pour traiter le problème de déformation de l’apparence des personnes dans les images. Nous avons alors décidé d’adapter l’approche de DPM pour prendre explicitement en compte le modèle de distorsions. Il est apparu que les modèles déformables peuvent être modifiés pour s’adapter aux fortes distorsions des images fisheye, mais ceci avec un coût de calculatoire supérieur. Dans cette thèse, nous présentons également une approche de fusion Lidar/camera fisheye. Une architecture de fusion séquentielle est utilisée et permet de réduire les fausses détections et le coût calculatoire de manière importante. Un jeu de données en environnement de chantier a été construit et différentes expériences ont été réalisées pour évaluer les performances du système. Les résultats sont prometteurs, à la fois en terme de vitesse de traitement et de performance de détection. === This thesis has been carried out in the framework of the cooperation between the Compiègne University of Technology (UTC) and the Technical Centre for Mechanical Industries (CETIM). In this work, we present a vision-based multi-sensors people detection system for safety on heavy machines. A perception system composed of a monocular fisheye camera and a Lidar is proposed. The use of fisheye cameras provides an advantage of a wide field-of-view but yields the problem of handling the strong distortions in the detection stage.To the best of our knowledge, no research works have been dedicated to people detection in fisheye images. For that reason, we focus on investigating and quantifying the strong radial distortions impacts on people appearance and proposing adaptive approaches to handle that specificity. Our propositions are inspired by the two state-of-the-art people detection approaches : the Histogram of Oriented Gradient (HOG) and the Deformable Parts Model (DPM). First, by enriching the training data set, we prove that the classifier can take into account the distortions. However, fitting the training samples to the model, is not the best solution to handle the deformation of people appearance. We then decided to adapt the DPM approach to handle properly the problem. It turned out that the deformable models can be modified to be even better adapted to the strong distortions of the fisheye images. Still, such approach has adrawback of the high computation cost and complexity. In this thesis, we also present a framework that allows the fusion of the Lidar modality to enhance the vision-based people detection algorithm. A sequential Lidar-based fusion architecture is used, which addresses directly the problem of reducing the false detections and computation cost in vision-based-only system. A heavy machine dataset have been also built and different experiments have been carried out to evaluate the performances of the system. The results are promising, both in term of processing speed and performances.