Summary: | La vision de la profondeur ou communément appelée « vision 3D » permet d'interpréter les relations spatiales tridimensionnelles entre les objets de la scène visuelle et confère à l'homme une grande précision dans ses interactions avec l'environnement. La vision 3D repose sur de nombreux mécanismes d'analyse du signal visuel dont la plupart gardent tout leur pouvoir informationnel lors de la stimulation d'un seul œil (indices monoculaires) mais dont certains nécessitent la stimulation des deux yeux (indices binoculaires). Cette thèse se concentre sur les mécanismes nécessitant les deux yeux qui mettent en jeu la différence de point de vue entre les deux yeux, aussi appelée disparité rétinienne. Les travaux présentés dans cette thèse s'inscrivent suivant deux approches majeures : une approche par la modélisation avec la simulation de l'extraction de la disparité rétinienne au niveau cortical et une approche expérimentale avec l'étude de l'influence de la disparité rétinienne sur l'attention visuelle pendant l'exploration de scènes visuelles stéréoscopiques avec enregistrements oculométriques. Le modèle proposé est construit en utilisant les données physiologiques du cortex visuel primaire V1 disponibles dans la littérature. Il effectue une estimation de la disparité rétinienne à partir des réponses modélisées des cellules simples et complexes de V1. Nous adoptons une approche bio-inspirée à deux niveaux. Le premier concerne l'architecture globale d'organisation et d'interaction des cellules corticales réalisant l'extraction d'informations à différentes fréquences spatiales, orientations et disparités, pour obtenir une estimation locale de la disparité rétinienne. Le second niveau concerne la configuration des cellules corticales implémentées comme des opérateurs de filtrage spatial. La partie expérimentale se divise elle-même en deux parties. En effet, l'utilisation de données oculométriques d'exploration de scènes 3D nécessite une étape préalable de calibration. Ainsi, nous développons une méthode de calibration 3D permettant de suivre la profondeur du regard à partir des coordonnées binoculaires enregistrées par oculométrie. Ensuite, nous analysons l'influence de la disparité rétinienne sur l'exploration visuelle de différentes catégories de scènes naturelles basées sur la présence d'indices de profondeur monoculaires et binoculaires. Nous étudions l'influence de la dominance oculaire, du biais de centralité et du biais de profondeur sur l'exploration pour chaque catégorie d'image. Un modèle de saillance 2D se montre inadapté pour prédire les zones saillantes en 3D mais également en 2D. L'information de profondeur doit être intégrée dans le calcul de la saillance grâce à la disparité rétinienne et grâce aux autres indices de profondeur pour expliquer pleinement l'exploration 2D et 3D. === Depth vision or « 3D vision » can interpret tridimensional spatial relations between objects in a visual scene and gives humans a good precision of interaction with their environment. 3D vision uses several kinds of mechanisms to analyze visual signal. Some keep their power during a monocular stimulation (monocular depth cues) but others need a binocular stimulation (binocular depth cues). This thesis focuses on the binocular mechanism which uses the difference of point of view between the two eyes (also called retinal disparity). The work presented in this thesis follows two main approaches: the modeling of the retinal disparity extraction at the cortical level, and an experiment to analyze the influence of retinal disparity on visual attention during the exploration of natural stereoscopic scenes with eye tracking recording. The proposed model is built from physiologic data of primary visual cortex V1 found in the literature. Our model makes an estimation of the retinal disparity from modeled responses of simple and complex cells of V1. We take a bio-inspired approach at two levels. The first level concerns the global architecture of the organization and the interaction of cortical cells which extract the information at different spatial frequencies, orientations and disparities. The second level concerns the configuration of cortical cells implemented like spatial filters. The experimental part is subdivided into two parts. Indeed, the use of eye-tracking data of 3D scenes exploration needs a calibration step. Hence, we developed a 3D calibration method allowing us to track the depth of the gaze from the recorded binocular coordinates. Then, we analyze the influence of retinal disparity in the visual exploration of different categories of natural scenes based on the presence of monocular and binocular depth cues. The ocular dominance, the central bias and the depth bias are also studied in this paradigm. We show that a 2D saliency model is not adapted to predict the salient zone during 3D viewing but also during 2D viewing. The depth information must be integrated in saliency computation thanks to retinal disparity and monocular depth cues to explain fully the visual exploration both in 2D and 3D.
|