Inertial-aided EKF-based Structure from Motionfor Robust Real-time Augmented Reality

The aim of this project was to develop a system that enables the overlay of computer graphics in a video sequence recorded by a moving camera. To do this, the camera’s position relative different landmarks in the picture needs to be estimated, a problem commonly referred to as “Structure from Motion...

Full description

Bibliographic Details
Main Author: HUGMARK, JOAKIM
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2013
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142344
Description
Summary:The aim of this project was to develop a system that enables the overlay of computer graphics in a video sequence recorded by a moving camera. To do this, the camera’s position relative different landmarks in the picture needs to be estimated, a problem commonly referred to as “Structure from Motion” within the Computer Vision community, or “Monocular SLAM” within the robotics community. The system should be robust in the sense that it can handle partial occlusions and dynamic environments, as well as large open spaces without much texture in the image. To enable this, an IMU-unit is used to complement the visual input from the camera. The system is based on previous work by Civera et al. and uses the Extended Kalman Filter (EKF) to fuse the sensor inputs. A 1-point RANSAC method is used to efficiently detect and discard outliers in the sensor data. Inverse depth parameterization is used to enable the use of landmarks far away from the camera. The IMU used in the project is developed by X-IO Technologies, and uses an on-board algorithm developed by Madgwick to determine a precise and drift-free orientation. The system is evaluated using multiple video sequences recorded in a setting similar to where the system is intended to be used. Results indicate that the IMU really helps the system to differentiate ambiguities between translational and rotational movements, as well as keeping the system stable during smaller occlusions. Some cases where the system often fails are also identified. The performance of the system is evaluated, as well as how some differ === Målet med detta projekt var att utveckla ett system som möjliggör placerandet av datorgrafik i en videosekvens inspelad av en kamera i rörelse. För att åstadkomma detta måste kamerans position och rotation relativt landmärken i dess omgivande miljö uppskattas. Detta problem benämns ofta ”Structure from Motion” (inom datorseendeområdet) eller ”Monocular SLAM” (inom robotikområdet). Systemet ska även vara robust så tillvida att det kan hantera partiella ocklusioner och icke-statiska miljöer, liksom att operera i stora öppna områden vilket resulterar i att bilden kan innehålla väldigt lite texturer. För att kunna uppnå detta används en IMU-enhet som komplement till den visuella information som kameran ger. Systemet är baserat på tidigare forskning av framförallt Civera et al. och använder ett Extended Kalmanfilter (EKF) för att sammanfoga de olika sensorernas data. En 1-punkts RANSAC-metod används för att detektera och avfärda outliers i sensordatan. Invers djupparameterisering används för att möjliggöra användandet av avlägsna landmärken. IMUn som används är utvecklad av X-IO Technologies och använder en integrerad algoritm utvecklad av Madgwick för att beräkna en exakt och driftfri absolut orientering. Systemet utvärderas med flera videosekvenser inspelade i en miljö som liknar den där det är tänkt att användas. Resultaten antyder att IMUn verkligen hjälper systemet att särskilja tvetydigheter gällande translationer och rotationer, samt hjälper till att hålla systemet stabilt vid mindre ocklusioner. En del fall där systemet ofta misslyckas är också identifierade. Systemets prestanda utvärderas, liksom hur flera av dess parametrar påverkar resultatet.