Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commands

Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo...

Full description

Bibliographic Details
Main Authors: Alexander Ceballos, Andrés F Serna-Morales, Flavio Prieto, Juan B Gómez, Tanneguy Redarce
Format: Article
Language:English
Published: Universidad de Tarapacá 2011-08-01
Series:Ingeniare : Revista Chilena de Ingeniería
Subjects:
Online Access:http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012
id doaj-1d783d3daf9d47d1ae972f6c242673f5
record_format Article
spelling doaj-1d783d3daf9d47d1ae972f6c242673f52020-11-24T23:57:08ZengUniversidad de TarapacáIngeniare : Revista Chilena de Ingeniería0718-32910718-33052011-08-01192278291Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commandsAlexander CeballosAndrés F Serna-MoralesFlavio PrietoJuan B GómezTanneguy RedarceSe presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo seguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para la inicialización automática del algoritmo se emplearon transformaciones de color y contornos activos con información de flujo del vector gradiente ("GVF snakes") sobre la región labial, mientras que para el seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidas en el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automático del habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov (HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleando únicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas (AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en español y francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robusto que ASR y VSR.<br>We present the development of an automatic audiovisual speech recognition system focused on the recognition of commands. Signal audio representation was done using Mel cepstral coefficients and their first and second order time derivatives. In order to characterize the video signal, a set of high-level visual features was tracked throughout the sequences. Automatic initialization of the algorithm was performed using color transformations and active contour models based on Gradient Vector Flow (GVF Snakes) on the lip region, whereas visual tracking used similarity measures across neighborhoods and morphological restrictions defined on MPEG-4 standard. First of all, we show the design process for an isolated word audio speech recognition system (ASR) using Hidden Markov Models. Next, we show the design process for a speech recognition system using only video features (VSR,) and both audio and video features combined (AVSR). Finally, we compare the results of the three systems on our database in Spanish and French language, showing that AVSR outperforms AVR and VSR under increased acoustic noise conditions in the sequences.http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012Reconocimiento audiovisual del hablamodelo oculto de Markov (HMM)coeficientes de Melcontorno activopseudotonoestándar MPEG-4puntos FAPsseguimiento de característicasAudiovisual speech recognitionhidden Markov models (HMM)Mel's coefficientsactive contourspseudo toneMPEG-4 standardFAP pointstracking features
collection DOAJ
language English
format Article
sources DOAJ
author Alexander Ceballos
Andrés F Serna-Morales
Flavio Prieto
Juan B Gómez
Tanneguy Redarce
spellingShingle Alexander Ceballos
Andrés F Serna-Morales
Flavio Prieto
Juan B Gómez
Tanneguy Redarce
Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commands
Ingeniare : Revista Chilena de Ingeniería
Reconocimiento audiovisual del habla
modelo oculto de Markov (HMM)
coeficientes de Mel
contorno activo
pseudotono
estándar MPEG-4
puntos FAPs
seguimiento de características
Audiovisual speech recognition
hidden Markov models (HMM)
Mel's coefficients
active contours
pseudo tone
MPEG-4 standard
FAP points
tracking features
author_facet Alexander Ceballos
Andrés F Serna-Morales
Flavio Prieto
Juan B Gómez
Tanneguy Redarce
author_sort Alexander Ceballos
title Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commands
title_short Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commands
title_full Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commands
title_fullStr Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commands
title_full_unstemmed Sistema audiovisual para reconocimiento de comandos Audiovisual system for recognition of commands
title_sort sistema audiovisual para reconocimiento de comandos audiovisual system for recognition of commands
publisher Universidad de Tarapacá
series Ingeniare : Revista Chilena de Ingeniería
issn 0718-3291
0718-3305
publishDate 2011-08-01
description Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo seguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para la inicialización automática del algoritmo se emplearon transformaciones de color y contornos activos con información de flujo del vector gradiente ("GVF snakes") sobre la región labial, mientras que para el seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidas en el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automático del habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov (HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleando únicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas (AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en español y francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robusto que ASR y VSR.<br>We present the development of an automatic audiovisual speech recognition system focused on the recognition of commands. Signal audio representation was done using Mel cepstral coefficients and their first and second order time derivatives. In order to characterize the video signal, a set of high-level visual features was tracked throughout the sequences. Automatic initialization of the algorithm was performed using color transformations and active contour models based on Gradient Vector Flow (GVF Snakes) on the lip region, whereas visual tracking used similarity measures across neighborhoods and morphological restrictions defined on MPEG-4 standard. First of all, we show the design process for an isolated word audio speech recognition system (ASR) using Hidden Markov Models. Next, we show the design process for a speech recognition system using only video features (VSR,) and both audio and video features combined (AVSR). Finally, we compare the results of the three systems on our database in Spanish and French language, showing that AVSR outperforms AVR and VSR under increased acoustic noise conditions in the sequences.
topic Reconocimiento audiovisual del habla
modelo oculto de Markov (HMM)
coeficientes de Mel
contorno activo
pseudotono
estándar MPEG-4
puntos FAPs
seguimiento de características
Audiovisual speech recognition
hidden Markov models (HMM)
Mel's coefficients
active contours
pseudo tone
MPEG-4 standard
FAP points
tracking features
url http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012
work_keys_str_mv AT alexanderceballos sistemaaudiovisualparareconocimientodecomandosaudiovisualsystemforrecognitionofcommands
AT andresfsernamorales sistemaaudiovisualparareconocimientodecomandosaudiovisualsystemforrecognitionofcommands
AT flavioprieto sistemaaudiovisualparareconocimientodecomandosaudiovisualsystemforrecognitionofcommands
AT juanbgomez sistemaaudiovisualparareconocimientodecomandosaudiovisualsystemforrecognitionofcommands
AT tanneguyredarce sistemaaudiovisualparareconocimientodecomandosaudiovisualsystemforrecognitionofcommands
_version_ 1725455343213871104