Summary: | Ce travail vise à mieux évaluer la qualité perceptuelle des images contenant des distorsions structurelles et géométriques notamment dans le contexte de médias immersifs. Nous proposons et explorons un cadre algorithmique hiérarchique de la perception visuelle. Inspiré par le système visuel humain, nous investiguons plusieurs niveaux de représentations des images : bas niveau (caractéristiques élémentaires comme les segments), niveau intermédiaire (motif complexe, encodage de contours), haut niveau (abstraction et reconnaissance des données visuelles). La première partie du manuscrit traite des représentations bas niveau pour la structure et texture. U n modèle basé filtre bilatéral est d’abord introduit pour qualifier les rôles respectifs de l’information texturale et structurelle dans diverses tâches d’évaluation (utilité, qualité. . . ). Une mesure de qualité d’image/vidéo est proposée pour quantifier les déformations de structure spatiales et temporelles perçues en utilisant une métrique dite élastique. La seconde partie du mémoire explore les représentations de niveaux intermédiaires. Un modèle basé « schetch token » et un autre basé sur codage d’un arbre de contexte sont présentés pour évaluer la qualité perçue. La troisième partie traite des représentations haut niveau. Deux approches d’apprentissage machine sont proposées pour apprendre ces représentations : une basée sur un technique de convolutional sparse coding, l’autre sur des réseaux profonds de type generative adversarial network. Au long du manuscrit, plusieurs expériences sont menées sur différentes bases de données pour plusieurs applications (FTV, visualisation multi-vues, images panoramiques 360. . . ) ainsi que des études utilisateurs. === This work aims to better evaluate the perceptual quality of image/video that contains structural and geometric related distortions in the context of immersive multimedia. We propose and explore a hierarchical framework of visual perception for image/video. Inspired by representation mechanism of the visual system, low-level (elementary visual features, e.g. edges), mid-level (intermediate visual patterns, e.g. codebook of edges), and higher-level (abstraction of visual input, e.g. category of distorted edges) image/video representations are investigated for quality assessment. The first part of this thesis addresses the low-level structure and texture related representations. A bilateral filter-based model is first introduced to qualify the respective role of structure and texture information in various assessment tasks (utility, quality . . . ). An image quality/video quality measure is proposed to quantify structure deformation spatially and temporally using new elastic metric. The second part explores mid-level structure related representations. A sketch-token based model and a context tree based model are presented in this part for the image and video quality evaluation. The third part explores higher-level structure related representations. Two machine learning approaches are proposed to learn higher-level representation: a convolutional sparse coding based and a generative adversarial network. Along the thesis, experiments an user studies have been conducted on different databases for different applications where special structure related distortions are observed (FTV, multi-view rendering, omni directional imaging . . . ) .
|