SPEECH RECOGNITION IN NOISE ENVIRONMENT
COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR === Este trabalho apresenta um estudo comparativo de três técnicas de melhoria das taxas de reconhecimento de voz em ambiente adverso, a saber: Normalização da Média Cepestral (CMN), Subtração Espectral e Regressão Linear no Sentido da...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2001
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@2 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@4 |
id |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-1987 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
description |
COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR === Este trabalho apresenta um estudo comparativo de três
técnicas de melhoria das taxas de reconhecimento de voz em
ambiente adverso, a saber: Normalização da Média Cepestral
(CMN), Subtração Espectral e Regressão Linear no Sentido da
Máxima Verossimilhança (MLLR), aplicadas isoladamente e em
concomitância, duas a duas. Os testes são realizados usando
um sistema simples: reconhecimento de palavras isoladas
(dígitos de zero a nove, e meia), modo dependente do
locutor, modelos ocultos de Markov do tipo contínuo, e
vetores de atributos com doze coeficientes cepestrais
derivados da análise de predição linear. São adotados três
tipos de ruído (gaussiano branco, falatório e de fábrica)
em nove razões sinal-ruído diferentes. Os resultados
experimentais demonstram que o emprego isolado das técnicas
de reconhecimento robusto é, em geral, vantajoso, pois nas
diversas razões sinal-ruído para as quais os testes são
efetuados, quando as taxas de reconhecimento não sofrem um
acréscimo, mantém-se as mesmas obtidas quando não se aplica
nenhum método de aumento da robustez. Analisando-se
comparativamente as implementações isoladas e simultânea
das técnicas, constata-se que a simultânea nem sempre é
atraente, dependendo da dupla empregada. Apresentam-se,
ainda, os resultados decorrentes do uso de modelos
ruidosos, observando-se que, embora sejam inegavelmente
melhores, sua utilização é inviável na prática. Das
técnicas implementadas, a que representa resultados mais
próximos ao emprego de modelos ruidosos é a MLLR, seguida
pela CMN, e por último pela Subtração Espectral. Estas
últimas, embora percam em desempenho para a primeira,
apresentam como vantagem a simplicidade e a generalidade.
No que concerne as técnicas usadas concomitantemente, a
dupla Subtração Espectral e MLLR é a considerada de melhor
performance, pois mostra-se conveniente em relação ao
emprego isolado de ambos os métodos, o que nem sempre
ocorre com o uso de outras combinações das técnicas
individuais.
=== This work presents a comparative study of three techniques
for improving the speech recognition rates in adverse
environment, namely: Cepstral Mean Normalization (CMN),
Spectral Subtraction and Maximum Likelihood Linear
Regression (MLLR). They are implemented in two ways:
separately and in pairs. The tests are carried out on a
simple system: recognition of isolated words (digits from
zero to nine, and the word half), speaker-dependent mode,
continuous hidden Markov models, and speech feature vectors
with twelve cepstral coefficients derived from linear
predictive analysis. Three types of noise are considered
(the white one, voice babble and from factory) at nine
different signal-to-noise ratios. Experimental result
demonstrate that it is worth using separately the
techniques of robust recognition. This is because for all
signal-to-noise conditions when the recognition accuracy is
not improved it is the same one obtained when no method for
increasing the robustness is applied. Analyzing
comparatively the isolated and simultaneous applications of
the techniques, it is verified that the later is not always
more attractive than the former one. This depends on the
pair of techniques. The use of noisy models is also
considered. Although it presents better results, it is not
feasible to implement in pratical situations. Among the
implemented techniques, MLLR presents closer results to the
ones obtaneid with noisy models, followed by CMN, and, at
last, by Spectral Subtraction. Although the two later ones
are beaten by the first, in terms of recognition accuracy,
their advantages are the simplicity and the generality. The
use of simultaneous techniques reveals that the pair
Spectral Subtraction and MLLR is the one with the best
performance because it is superior in comparison with the
individual use of both methods. This does not happen with
other combination of techniques. === Este trabajo presenta un estudio comparativo de tres
técnicas de mejoría de las tasas de reconocimiento de voz
en ambiente adverso, a saber: Normalización de la Media
Cepextral (CMN), Substracción Espectral y Regresión Lineal
en el Sentido de la Máxima Verosimilitud (MLLR), aplicadas
separada y conjuntamente, dos a dos. Las pruebas son
realizados usando un sistema simple: reconocimiento de
palabras aisladas (dígitos de cero al nueve, y media), de
modo dependiente del locutor, modelos ocultos de Markov de
tipo contínuo, y vectores de atributos con doce
coeficientes cepextrales derivados del análisis de
predicción lineal. Se adoptan tres tipos de ruido (gausiano
blanco, parlatorio y de fábrica) en nueve razones señal-
ruido diferentes. Los resultados experimentales demuestran
que el empleo aislado de las técnicas de reconocimiento
robusto es, en general, ventajoso, pues en las diversas
relaciones señal ruido para las cuales las pruebas son
efetuadas, cuando la tasa de reconocimiento no aumenta,
manteniendo las mismas tasas cuando no se aplica ningún
método de aumento de robustez. Analizando comparativamente
las implementaciones aisladas y simultáneas de las
técnicas, se constata que no siempre la simultánea resulta
atractiva, dependiendo de la dupla utilizada. Se presentan
además los resultados al utilizar modelos ruidosos,
observando que, aunque resultan mejores, su utilización em
la práctica resulta inviable. De las técnicas
implementadas, la que presenta resultados más próximos al
empleo de modelos ruidosos es la MLLR, seguida por la CMN,
y por último por la Substracción Espectral. Estas últimas,
aunque tienen desempeño peor que la primera, tienen como
ventaja la simplicidad y la generalidad. En lo que se
refiere a las técnicas usadas concomitantemente, la dupla
Substracción Espectral y MLLR es la de mejor performance,
pues se muestra conveniente en relación al empleo aislado
de ambos métodos, lo que no siempre ocurre con el uso de
otras combinaciones de las técnicas individuales. |
author2 |
ABRAHAM ALCAIM |
author_facet |
ABRAHAM ALCAIM DEBORA ANDREA DE OLIVEIRA SANTOS |
author |
DEBORA ANDREA DE OLIVEIRA SANTOS |
spellingShingle |
DEBORA ANDREA DE OLIVEIRA SANTOS SPEECH RECOGNITION IN NOISE ENVIRONMENT |
author_sort |
DEBORA ANDREA DE OLIVEIRA SANTOS |
title |
SPEECH RECOGNITION IN NOISE ENVIRONMENT |
title_short |
SPEECH RECOGNITION IN NOISE ENVIRONMENT |
title_full |
SPEECH RECOGNITION IN NOISE ENVIRONMENT |
title_fullStr |
SPEECH RECOGNITION IN NOISE ENVIRONMENT |
title_full_unstemmed |
SPEECH RECOGNITION IN NOISE ENVIRONMENT |
title_sort |
speech recognition in noise environment |
publisher |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
publishDate |
2001 |
url |
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@2 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@4 |
work_keys_str_mv |
AT deboraandreadeoliveirasantos speechrecognitioninnoiseenvironment AT deboraandreadeoliveirasantos reconocimientodevozenprescenciaderuido AT deboraandreadeoliveirasantos reconhecimentodevozempresencaderuido |
_version_ |
1718985894655950848 |
spelling |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-19872019-03-01T15:32:43Z SPEECH RECOGNITION IN NOISE ENVIRONMENT RECONOCIMIENTO DE VOZ EN PRESCENCIA DE RUIDO RECONHECIMENTO DE VOZ EM PRESENÇA DE RUÍDO DEBORA ANDREA DE OLIVEIRA SANTOS ABRAHAM ALCAIM ABRAHAM ALCAIM SERGIO LIMA NETTO FERNANDO GIL VIANNA RESENDE JUNIOR COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR Este trabalho apresenta um estudo comparativo de três técnicas de melhoria das taxas de reconhecimento de voz em ambiente adverso, a saber: Normalização da Média Cepestral (CMN), Subtração Espectral e Regressão Linear no Sentido da Máxima Verossimilhança (MLLR), aplicadas isoladamente e em concomitância, duas a duas. Os testes são realizados usando um sistema simples: reconhecimento de palavras isoladas (dígitos de zero a nove, e meia), modo dependente do locutor, modelos ocultos de Markov do tipo contínuo, e vetores de atributos com doze coeficientes cepestrais derivados da análise de predição linear. São adotados três tipos de ruído (gaussiano branco, falatório e de fábrica) em nove razões sinal-ruído diferentes. Os resultados experimentais demonstram que o emprego isolado das técnicas de reconhecimento robusto é, em geral, vantajoso, pois nas diversas razões sinal-ruído para as quais os testes são efetuados, quando as taxas de reconhecimento não sofrem um acréscimo, mantém-se as mesmas obtidas quando não se aplica nenhum método de aumento da robustez. Analisando-se comparativamente as implementações isoladas e simultânea das técnicas, constata-se que a simultânea nem sempre é atraente, dependendo da dupla empregada. Apresentam-se, ainda, os resultados decorrentes do uso de modelos ruidosos, observando-se que, embora sejam inegavelmente melhores, sua utilização é inviável na prática. Das técnicas implementadas, a que representa resultados mais próximos ao emprego de modelos ruidosos é a MLLR, seguida pela CMN, e por último pela Subtração Espectral. Estas últimas, embora percam em desempenho para a primeira, apresentam como vantagem a simplicidade e a generalidade. No que concerne as técnicas usadas concomitantemente, a dupla Subtração Espectral e MLLR é a considerada de melhor performance, pois mostra-se conveniente em relação ao emprego isolado de ambos os métodos, o que nem sempre ocorre com o uso de outras combinações das técnicas individuais. This work presents a comparative study of three techniques for improving the speech recognition rates in adverse environment, namely: Cepstral Mean Normalization (CMN), Spectral Subtraction and Maximum Likelihood Linear Regression (MLLR). They are implemented in two ways: separately and in pairs. The tests are carried out on a simple system: recognition of isolated words (digits from zero to nine, and the word half), speaker-dependent mode, continuous hidden Markov models, and speech feature vectors with twelve cepstral coefficients derived from linear predictive analysis. Three types of noise are considered (the white one, voice babble and from factory) at nine different signal-to-noise ratios. Experimental result demonstrate that it is worth using separately the techniques of robust recognition. This is because for all signal-to-noise conditions when the recognition accuracy is not improved it is the same one obtained when no method for increasing the robustness is applied. Analyzing comparatively the isolated and simultaneous applications of the techniques, it is verified that the later is not always more attractive than the former one. This depends on the pair of techniques. The use of noisy models is also considered. Although it presents better results, it is not feasible to implement in pratical situations. Among the implemented techniques, MLLR presents closer results to the ones obtaneid with noisy models, followed by CMN, and, at last, by Spectral Subtraction. Although the two later ones are beaten by the first, in terms of recognition accuracy, their advantages are the simplicity and the generality. The use of simultaneous techniques reveals that the pair Spectral Subtraction and MLLR is the one with the best performance because it is superior in comparison with the individual use of both methods. This does not happen with other combination of techniques. Este trabajo presenta un estudio comparativo de tres técnicas de mejoría de las tasas de reconocimiento de voz en ambiente adverso, a saber: Normalización de la Media Cepextral (CMN), Substracción Espectral y Regresión Lineal en el Sentido de la Máxima Verosimilitud (MLLR), aplicadas separada y conjuntamente, dos a dos. Las pruebas son realizados usando un sistema simple: reconocimiento de palabras aisladas (dígitos de cero al nueve, y media), de modo dependiente del locutor, modelos ocultos de Markov de tipo contínuo, y vectores de atributos con doce coeficientes cepextrales derivados del análisis de predicción lineal. Se adoptan tres tipos de ruido (gausiano blanco, parlatorio y de fábrica) en nueve razones señal- ruido diferentes. Los resultados experimentales demuestran que el empleo aislado de las técnicas de reconocimiento robusto es, en general, ventajoso, pues en las diversas relaciones señal ruido para las cuales las pruebas son efetuadas, cuando la tasa de reconocimiento no aumenta, manteniendo las mismas tasas cuando no se aplica ningún método de aumento de robustez. Analizando comparativamente las implementaciones aisladas y simultáneas de las técnicas, se constata que no siempre la simultánea resulta atractiva, dependiendo de la dupla utilizada. Se presentan además los resultados al utilizar modelos ruidosos, observando que, aunque resultan mejores, su utilización em la práctica resulta inviable. De las técnicas implementadas, la que presenta resultados más próximos al empleo de modelos ruidosos es la MLLR, seguida por la CMN, y por último por la Substracción Espectral. Estas últimas, aunque tienen desempeño peor que la primera, tienen como ventaja la simplicidad y la generalidad. En lo que se refiere a las técnicas usadas concomitantemente, la dupla Substracción Espectral y MLLR es la de mejor performance, pues se muestra conveniente en relación al empleo aislado de ambos métodos, lo que no siempre ocurre con el uso de otras combinaciones de las técnicas individuales. 2001-07-30 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@2 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=1987@4 por info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM ENGENHARIA ELÉTRICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO |