Summary: | Como a complexidade das tarefas realizadas por robôs móveis vêm aumentando a cada dia, a percepção do robô deve ser capaz de capturar informações mais ricas do ambiente, que permitam a tomada de decisões complexas. Entre os possíveis tipos de informação que podem ser obtidos do ambiente, as informações geométricas e semânticas têm papéis importantes na maioria das tarefas designadas a robôs. Enquanto as informações geométricas revelam como os objetos e obstáculos estão distribuídos no espaço, as informações semânticas capturam a presença de estruturas complexas e eventos em andamento no ambiente, e os condensam em descrições abstratas. Esta tese propõe uma nova técnica probabilística para construir uma representação do ambiente baseada em objetos a partir de imagens capturadas por um robô navegando com uma câmera de vídeo solidária a ele. Esta representação, que fornece descrições geométricas e semânticas de objetos, é chamada O-Map, e é a primeira do gênero no contexto de navegação de robôs. A técnica de mapeamento proposta é também nova, e resolve concomitantemente os problemas de localização, mapeamento e classificação de objetos, que surgem quando da construção de O-Maps usando imagens processadas por detectores imperfeitos de objetos e sem um sensor de localização global. Por este motivo, a técnica proposta é chamada O-SLAM, e é o primeiro algoritmo que soluciona simultaneamente os problemas de localização e mapeamento usando somente odometria e o resultado de algoritmos de reconhecimento de objetos. Os resultados obtidos através da aplicação de O-SLAM em imagens processadas por uma técnica simples de detecção de objetos mostra que o algoritmo proposto é capaz de construir mapas que descrevem consistentemente os objetos do ambiente, dado que o sistema de visão computacional seja capaz de detectá-los regularmente. Em particular, O-SLAM é eficaz em fechar voltas grandes na trajetória do robô, e obtém sucesso mesmo se o sistema de detecção de objetos posuir falhas, relatando falsos positivos e errando a classe do objeto algumas vezes, consertando estes erros. Dessa forma, O-SLAM é um passo em direção à solução integrada do problema de localização, mapeamento e reconhecimento de objetos, a qual deve prescindir de um sistema pronto de reconhecimento de objetos e gerar O-Maps somente pela fusão de informações geométricas e visuais obtidas pelo robô. === As tasks performed by mobile robots are increasing in complexity, robot perception must be able to capture richer information from the environment in order to allow complex decision making. Among the possible types of information that can be retrieved from the environment, geometric and semantic information play important roles in most of the tasks assigned to robots. While geometric information reveals how objects and obstacles are distributed in space, semantic information captures the presence of complex structures and ongoing events from the environment and summarize them in abstract descriptions. This thesis proposes a new probabilistic technique to build an object-based representation of the robot surrounding environment using images captured by an attached video camera. This representation, which provides geometric and semantic descriptions of the objects, is called O-Map, and is the first of its kind in the robot navigation context. The proposed mapping technique is also new, and concurrently solves the localization, mapping and object classification problems arisen from building O-Maps using images processed by imperfect object detectors and no global localization sensor. Thus, the proposed technique is called O-SLAM, and is the first algorithm to solve the simultaneous localization and mapping problem using solely odometers and the output from object recognition algorithms. The results obtained by applying O-SLAM to images processed by simple a object detection technique show that the proposed algorithm is able to build consistent maps describing the objects in the environment, provided that the computer vision system is able to detect them on a regular basis. In particular, O-SLAM is effective in closing large loops in the trajectory, and is able to perform well even if the object detection system makes spurious detections and reports wrong object classes, fixing these errors. Thus, O-SLAM is a step towards the solution of the simultaneous localization, mapping and object recognition problem, which must drop the need for an off-the-shelf object recognition system and generate O-Maps only by fusing geometric and appearance information gathered by the robot.
|