Real-time automatic face tracking using adaptive random forests

Tracking is treated as a pixel-based binary classification problem in this thesis. An ensemble strong classifier obtained as a weighted combination of several random forests (weak classifiers), is trained on pixel feature vectors. The strong classifier is then used to classify the pixels belonging t...

Full description

Bibliographic Details
Main Author: Tang, Ying
Other Authors: Martin D Levine (Internal/Supervisor)
Format: Others
Language:en
Published: McGill University 2010
Subjects:
Online Access:http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=95172
Description
Summary:Tracking is treated as a pixel-based binary classification problem in this thesis. An ensemble strong classifier obtained as a weighted combination of several random forests (weak classifiers), is trained on pixel feature vectors. The strong classifier is then used to classify the pixels belonging to the face or the background in the next frame. The classification margins are used to create a confidence map, whose peak indicates the new location of the face. The peak is located by Camshift which adjusts the size of the tracked face. The random forests in the ensemble are updated using AdaBoost by training new random forests to replace certain older ones to adapt to the changes between two frames. Tracking accuracy is monitored by a variable called the classification score. If the score detects a tracking anomaly, the system will stop tracking and restart by re-initializing using a Viola-Jones face detector. The tracker is tested on several sequences and proved to provide robust performance in different scenarios and illumination. The tracker can deal with complex changes of the face, a short period of occlusion, and the loss of tracking. === La localisation est traitée comme étant un problème de classification binaire à base de pixels dans cette thèse. Un ensemble de fort classificateur, obtenu à l'aide d'une combinaison pesée de plusieurs forêts (faibles classificateurs) aléatoires, est entraîné sur des vecteurs figurant des pixels. Le classificateur fort est ensuite utilisé pour classifier les pixels appartenant à la face ou au fond dans la prochaine image. Les marges de classifications sont utilisées pour créer une carte de confiance dont le sommet indique où est la nouvelle face. Le sommet est localisé par Camshift qui ajuste la grandeur de la face à localiser. Les forêts aléatoires dans l'ensemble sont mises à jours avec AdaBoost en entraînant des nouvelles forêts aléatoires pour remplacer certaines vieilles forêts pour s'adapter aux changements entre deux images. La précision de localisation est surveillée par une variable appelée note de classification. Si la note détecte une anomalie, le système arrêtera la localisation et redémarrera en réinitialisant en utilisant un détecteur de face Viola-Jones. Le localisateur est testé sur plusieurs séquences et s'est prouvé d'une performance robuste dans divers scénarios et illumination. Le localisateur peut agir bien à travers plusieurs changement complexes de la face, une courte période d'occlusion et la perte de la localisation.