Wide-baseline stereo for three-dimensional urban scenes

Like humans, computer vision systems can better infer a scene's 3-D structure by processing its 2-D images taken from multiple viewpoints. While this seems effortless for humans, it is still a challenge for computer vision. Underlying the act of associating the different perspectives is a probl...

Full description

Bibliographic Details
Main Author: Fan, Shu Fei
Other Authors: Frank P Ferrie (Internal/Supervisor)
Format: Others
Language:en
Published: McGill University 2010
Subjects:
Online Access:http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=95034
Description
Summary:Like humans, computer vision systems can better infer a scene's 3-D structure by processing its 2-D images taken from multiple viewpoints. While this seems effortless for humans, it is still a challenge for computer vision. Underlying the act of associating the different perspectives is a problem called wide-baseline stereo, which computes the geometric relationship between two overlapping views. Wide-baseline stereo can be problematic when working on images taken of real-life urban environments, due to practical issues such as poor image quality or ambiguity raised by repetitive patterns. We analyze why these factors pose difficulties for current methods and propose principles that can make wide-baseline stereo more effective, in terms of both robustness and accuracy. We treat wide-baseline stereo as a sequence of three sub-problems: feature detection, feature matching, and fundamental matrix estimation. We propose improvements for each of these and test them on real images of 3-D urban scenes. For feature detection, we demonstrate that when we use both image intensity contrast and entropy-based visual saliency, we are better at repeatably extracting features of a 3-D scene. We use intensity contrast as a cue for obtaining initial feature seeds, which are then evaluated and locally adapted according to an entropy-based saliency measure. We select features with high saliency scores. Experimental comparisons against peer feature detectors show that our method detects more regular structures and fewer noisy patterns. As a result, our method detects features with high repeatability, which is conducive to the subsequent feature matching. In the case of feature matching, we show that we can match features more robustly when using both local feature appearance and regional image information. We model global image information with a graph, whose nodes contain local feature appearances and edges encode semi-local proximity structure. Working on this graph, we convert t === L'utilisation de plusieurs points de vue d'une scène pour en déterminer sa structure tridimensionnelle est un exercice effectué autant par l'humain que par certains systèmes de vision artificielle. Mais alors qu'il ne requiert aucun effort pour l'humain, il représente un défi pour le domaine de la vision par ordinateur. Un problème sous-jacent à celui d'associer plusieurs perspectives d'une scène est celui de la stéréoscopie pour une longue ligne de base, qui consiste à déterminer les relations géométriques entre deux vues qui se chevauchent. La stéréo pour une longue ligne de base (lorsque les deux points de vue sont éloignés) peut être problématique dans un environnement urbain, en raison d'une qualité parfois pauvre des images, et aussi de l'ambiguïté que peut soulever des formes répétitives. Cette thèse analyse les raisons pour lesquelles ces facteurs peuvent être problématiques pour les méthodes actuelles et propose des principes qui permettent une stéréo plus efficace, autant au point de vue de la robustesse que de la précision. La stéréo d'images provenant de points de vues éloignés est divisée en trois sous-problémes: la détection de caractéristiques visuelles, leur appariement, ainsi que l'estimation de la matrice fondamentale. Des améliorations sont proposées pour chaque élément, et des expérimentations sur des données réelles de scènes urbaines sont présentées. Pour la détection de caractéristiques, il est démontré que lorsque le contraste en intensité des images ainsi que la saillance visuelle basée sur l'entropie sont utilisés, nous obtenons de meilleurs résultats de détection de caractéristiques de scènes tridimensionnelles. Le contraste en intensité est utilisé pour obtenir des points de départ pour les caractéristiques, qui sont ensuite évalués et adapté localement selon une mesure de saillance basée sur l'entropie. Les caractéristiques ayant obtenues une mesure élevée de sai