Extração de características em reconhecimento de parâmetros fonológicos da Língua Brasileira de Sinais utilizando sensores RGB-D

=== The feature extraction in Sign Language Recognition (SLR) is a challenging problem in Computer Vision. In this work, a methodology for feature extraction in Brazilian Sign Language (BSL, or Libras in Portuguese) that addresses some of these challenges is proposed. In this methodology the phonol...

Full description

Bibliographic Details
Main Author: Silvia Grasiella Moreira Almeida
Other Authors: Frederico Gadelha Guimaraes
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2014
Online Access:http://hdl.handle.net/1843/BUOS-9QJH83
Description
Summary:=== The feature extraction in Sign Language Recognition (SLR) is a challenging problem in Computer Vision. In this work, a methodology for feature extraction in Brazilian Sign Language (BSL, or Libras in Portuguese) that addresses some of these challenges is proposed. In this methodology the phonological structure of the language, relying on RGB-D sensor for obtaining intensity, position and depth data is explored. From the RGB-D images we obtain seven vision-based features. Each feature is related to one, two or three structural elements in BSL. This relation between extracted features and structural elements based on shape, movement and position of the hands is investigated. A Support Vector Machines (SVM) is employed to classify elements based on these features. Finally, distances between classified and desired elements are calculated. From these distances, the signs classification is performed. The experiments show that the attributes of these elements can be successfully recognized in terms of the features obtained from the RGB-D images, with accuracy results individually above 80% on average. It can be concluded that the proposed feature extraction methodology and the decomposition of the signs into their phonological structure is a promising method to help expert systems designed for SLR. === A extração de características em vídeo para reconhecimento de línguas de sinais é um problema que apresenta uma grande quantidade de desafios. O presente trabalho tem como proposta apresentar uma metodologia para extração de características em Língua Brasileira de Sinais que trata parte destes desafios. Nesta metodologia exploram-se parâmetros da própria estrutura fonológica da Língua Brasileira de Sinais. Um sensor RGB-D é utilizado para gravar sinais pré-estabelecidos e fornece como informação imagens de intensidade de cor em formato RGB, imagens de profundidade e imagens que marcam as posições do corpo humano. Destas informações obtidas por meio do sensor RGB-D são extraídas sete características baseadas em visão. Cada uma delas está relacionada a um, dois ou três parâmetros fonológicos estruturais da Língua Brasileira de Sinais. Investiga-se esta relação entre as características extraídas e os parâmetros estruturais baseados em forma, movimento e posição das mãos. Uma Máquina de Vetor de Suporte (SVM) é utilizada para classificar tais parâmetros estruturais linguísticos. Finalmente, calculam-se as distâncias entre os parâmetros classificados pela SVM e os desejados. A classificação dos sinais selecionados é realizada, assim, a partir dos valores destas distâncias. Os experimentos implementados mostram que os atributos destes parâmetros podem ser reconhecidos com sucesso em termos de características obtidas a partir das imagens RGB-D, com desempenhos individuais acima de 80% em média, o que pode ser considerado regular quando comparado a outros sistemas. Pode-se concluir que a metodologia proposta para a extração das características a partir da decomposição dos sinais em sua estrutura fonológica é um método promissor que pode auxiliar sistemas especialistas projetados para reconhecimento de sinais.