Analyse et interprétation de scènes visuelles par approches collaboratives

Les dernières années, la taille des collections vidéo a connu une forte augmentation. La recherche et la navigation efficaces dans des telles collections demande une indexation avec des termes pertinents, ce qui nous amène au sujet de cette thèse, l’indexation sémantique des vidéos. Dans ce contexte...

Full description

Bibliographic Details
Main Author:	Strat, Sabin Tiberius
Other Authors:	Grenoble
Language:	en fr
Published:	2013
Subjects:	Indexation sémantique Vidéo Sac de mots SIFT SURF Rétine Spatio-temporel Trajectoires Fusion tardive Semantic indexing Video Bag of Words Retina Spatio-temporal Trajectories Late fusion
Online Access:	http://www.theses.fr/2013GRENA026/document

id	ndltd-theses.fr-2013GRENA026
record_format	oai_dc
spelling	ndltd-theses.fr-2013GRENA0262018-06-22T04:56:48Z Analyse et interprétation de scènes visuelles par approches collaboratives Analysis and interpretation of visual scenes through collaborative approaches Analiza si interpretarea scenelor vizuale prin abordari colaborative Indexation sémantique Vidéo Sac de mots SIFT SURF Rétine Spatio-temporel Trajectoires Fusion tardive Semantic indexing Video Bag of Words SIFT SURF Retina Spatio-temporal Trajectories Late fusion Les dernières années, la taille des collections vidéo a connu une forte augmentation. La recherche et la navigation efficaces dans des telles collections demande une indexation avec des termes pertinents, ce qui nous amène au sujet de cette thèse, l’indexation sémantique des vidéos. Dans ce contexte, le modèle Sac de Mots (BoW), utilisant souvent des caractéristiques SIFT ou SURF, donne de bons résultats sur les images statiques. Notre première contribution est d’améliorer les résultats des descripteurs SIFT/SURF BoW sur les vidéos en pré-traitant les vidéos avec un modèle de rétine humaine, ce qui rend les descripteurs SIFT/SURF BoW plus robustes aux dégradations vidéo et qui leurs donne une sensitivité à l’information spatio-temporelle. Notre deuxième contribution est un ensemble de descripteurs BoW basés sur les trajectoires. Ceux-ci apportent une information de mouvement et contribuent vers une description plus riche des vidéos. Notre troisième contribution, motivée par la disponibilité de descripteurs complémentaires, est une fusion tardive qui détermine automatiquement comment combiner un grand ensemble de descripteurs et améliore significativement la précision moyenne des concepts détectés. Toutes ces approches sont validées sur les bases vidéo du challenge TRECVid, dont le but est la détection de concepts sémantiques visuels dans un contenu multimédia très riche et non contrôlé. During the last years, we have witnessed a great increase in the size of digital video collections. Efficient searching and browsing through such collections requires an indexing according to various meaningful terms, bringing us to the focus of this thesis, the automatic semantic indexing of videos. Within this topic, the Bag of Words (BoW) model, often employing SIFT or SURF features, has shown good performance especially on static images. As our first contribution, we propose to improve the results of SIFT/SURF BoW descriptors on videos by pre-processing the videos with a model of the human retina, thereby making these descriptors more robust to video degradations and sensitivite to spatio-temporal information. Our second contribution is a set of BoW descriptors based on trajectories. These give additional motion information, leading to a richer description of the video. Our third contribution, motivated by the availability of complementary descriptors, is a late fusion approach that automatically determines how to combine a large set of descriptors, giving a high increase in the average precision of detected concepts. All the proposed approaches are validated on the TRECVid challenge datasets which focus on visual concept detection in very large and uncontrolled multimedia content. Electronic Thesis or Dissertation Text en fr http://www.theses.fr/2013GRENA026/document Strat, Sabin Tiberius 2013-12-04 Grenoble Universitatea politehnica (Bucarest) Lambert, Patrick Benoît, Alexandre Stoichescu, Dan Alexandru
collection	NDLTD
language	en fr
sources	NDLTD
topic	Indexation sémantique Vidéo Sac de mots SIFT SURF Rétine Spatio-temporel Trajectoires Fusion tardive Semantic indexing Video Bag of Words SIFT SURF Retina Spatio-temporal Trajectories Late fusion
spellingShingle	Indexation sémantique Vidéo Sac de mots SIFT SURF Rétine Spatio-temporel Trajectoires Fusion tardive Semantic indexing Video Bag of Words SIFT SURF Retina Spatio-temporal Trajectories Late fusion Strat, Sabin Tiberius Analyse et interprétation de scènes visuelles par approches collaboratives
description	Les dernières années, la taille des collections vidéo a connu une forte augmentation. La recherche et la navigation efficaces dans des telles collections demande une indexation avec des termes pertinents, ce qui nous amène au sujet de cette thèse, l’indexation sémantique des vidéos. Dans ce contexte, le modèle Sac de Mots (BoW), utilisant souvent des caractéristiques SIFT ou SURF, donne de bons résultats sur les images statiques. Notre première contribution est d’améliorer les résultats des descripteurs SIFT/SURF BoW sur les vidéos en pré-traitant les vidéos avec un modèle de rétine humaine, ce qui rend les descripteurs SIFT/SURF BoW plus robustes aux dégradations vidéo et qui leurs donne une sensitivité à l’information spatio-temporelle. Notre deuxième contribution est un ensemble de descripteurs BoW basés sur les trajectoires. Ceux-ci apportent une information de mouvement et contribuent vers une description plus riche des vidéos. Notre troisième contribution, motivée par la disponibilité de descripteurs complémentaires, est une fusion tardive qui détermine automatiquement comment combiner un grand ensemble de descripteurs et améliore significativement la précision moyenne des concepts détectés. Toutes ces approches sont validées sur les bases vidéo du challenge TRECVid, dont le but est la détection de concepts sémantiques visuels dans un contenu multimédia très riche et non contrôlé. === During the last years, we have witnessed a great increase in the size of digital video collections. Efficient searching and browsing through such collections requires an indexing according to various meaningful terms, bringing us to the focus of this thesis, the automatic semantic indexing of videos. Within this topic, the Bag of Words (BoW) model, often employing SIFT or SURF features, has shown good performance especially on static images. As our first contribution, we propose to improve the results of SIFT/SURF BoW descriptors on videos by pre-processing the videos with a model of the human retina, thereby making these descriptors more robust to video degradations and sensitivite to spatio-temporal information. Our second contribution is a set of BoW descriptors based on trajectories. These give additional motion information, leading to a richer description of the video. Our third contribution, motivated by the availability of complementary descriptors, is a late fusion approach that automatically determines how to combine a large set of descriptors, giving a high increase in the average precision of detected concepts. All the proposed approaches are validated on the TRECVid challenge datasets which focus on visual concept detection in very large and uncontrolled multimedia content.
author2	Grenoble
author_facet	Grenoble Strat, Sabin Tiberius
author	Strat, Sabin Tiberius
author_sort	Strat, Sabin Tiberius
title	Analyse et interprétation de scènes visuelles par approches collaboratives
title_short	Analyse et interprétation de scènes visuelles par approches collaboratives
title_full	Analyse et interprétation de scènes visuelles par approches collaboratives
title_fullStr	Analyse et interprétation de scènes visuelles par approches collaboratives
title_full_unstemmed	Analyse et interprétation de scènes visuelles par approches collaboratives
title_sort	analyse et interprétation de scènes visuelles par approches collaboratives
publishDate	2013
url	http://www.theses.fr/2013GRENA026/document
work_keys_str_mv	AT stratsabintiberius analyseetinterpretationdescenesvisuellesparapprochescollaboratives AT stratsabintiberius analysisandinterpretationofvisualscenesthroughcollaborativeapproaches AT stratsabintiberius analizasiinterpretareascenelorvizualeprinabordaricolaborative
_version_	1718702750376656896

Analyse et interprétation de scènes visuelles par approches collaboratives

Similar Items