Uma avaliação sobre características espaço-temporais baseadas em invariantes de cor para reconhecimento de ações

=== Local spatiotemporal feature has been proved to be a powerful tool to represent latent patterns of moving objects in video scenes. In particular, recognition of human actions has been the principal focus for various growing applications, including video indexing, content-based video retrieval,...

Full description

Bibliographic Details
Main Author: Fillipe Dias Moreira de Souza
Other Authors: Arnaldo de Albuquerque Araujo
Format: Others
Language:English
Published: Universidade Federal de Minas Gerais 2011
Online Access:http://hdl.handle.net/1843/SLSS-8HTJ8P
Description
Summary:=== Local spatiotemporal feature has been proved to be a powerful tool to represent latent patterns of moving objects in video scenes. In particular, recognition of human actions has been the principal focus for various growing applications, including video indexing, content-based video retrieval, video summarization, filtering of unwanted content, rating of movies, to name a few. In general, spatiotemporal interest point detectors rely solely on gray-scale values and, in addition to this, descriptions of the support regions are mostly based on histograms of gradient orientation (to infer shape description) and optic flow (to estimate motion appearance). On the other hand, color information seems to have been overlooked during the last years of ameliorations of techniques for detection and description of local features in the space-time domain, despite being usually considered an important element to understand events from our surroundings. For object and scene recognition in static images, robustness to photometric variations has been achieved by describing local regions of spatial interest points in terms of color invariance properties. In such approach, robustness to lighting geometry, illumination intensity and highlight was built on the well-known dichromatic reflection model.In this context, the present work holds three main contributions. First, we have extended the space-time corner detector (STIP) to incorporate color information (using the normalized-RGB color system) at the detection phase, which we have called the ColorSTIP. Secondly, we have considered the use of color histograms (based on the saturation-weighed hue channel) to describe support regions of spatiotemporal interest points, calling it HueSTIP. Finally, it was conducted a thorough analysis of performance of the proposed extensions for the human action recognition in videos of unconstrained scenarios. === Característica espaço-temporal local tem se demonstrado uma ferramenta poderosa para representação de padrões não evidentes de objetos em movimento em cenas de vídeo. Em particular, reconhecimento de ações humanas tem sido o foco principal de diversas aplicações emergentes, tais como indexação de vídeos, recuperação de vídeo baseada em conteúdo, resumo de vídeos, filtragem de conteúdo indesejável, classificação de filmes, para citar algumas. De uma forma geral, detectores de pontos de interesse espaço-temporais contam somente com valores em escala de cinza e, além disso, descrição de regiões de supporte são em sua maioria baseadas em histogramas de orientação por gradientes (para inferir descrição de forma) e fluxo óptico (para estimar movimentação aparente). Por outro lado, informação de cor parece ter sido ignorado durante os últimos anos de aprimoramento de técnicas para detecção e descrição de características locais no domínio espaço-tempo, apesar de ser comumente considerada um elemento importante para entender os eventos ao nosso redor. Para reconhecimento de objetos e cenas em images estáticas, robustez a variações fotométricas foi alcançado através da descrição de regiões locais de pontos de interesse espaciais em termos das propriedades de invariância de cor. Em tal abordagem, robustez à geometria de iluminação, intensidade de iluminação e reflexão specular partiu do bastante conhecido modelo de reflexão dicromática. Neste contexto, o presente trabalho possue três contribuições principais. Primeiro, estendemos o detetor de esquinas espaço-temporais para incorporar informação de cor (utilizando o sistema de cor RGB-normalizado) na fase de detecção, o qual foi nomeado ColorSTIP. Segundo, consideramos o uso de histogramas de cor (baseado no canal hue ponderado pela saturação) para descrever regiões de suporte de pontos de interesse espaço-temporais, nomeando-o HueSTIP. Por fim, foi conduzida uma análise de desempenho criteriosa das extensões propostas para o reconhecimento de ações humanas em vídeos de cenários complexos.