Técnicas eficientes de identificação automática de locutores
Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2009. === Submitted by Allan Wanick Motta (allan_wanick@hotmail.com) on 2010-04-01T14:43:12Z No. of bitstreams: 1 2009_FredericoQuadrosDAlmeida.pdf: 1732276 bytes, checksum: e57b64ff73a3bbefb4a...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
2010
|
Subjects: | |
Online Access: | http://repositorio.unb.br/handle/10482/4038 |
id |
ndltd-IBICT-oai-repositorio.unb.br-10482-4038 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
Codificador de voz Sistemas de comunicação de microondas |
spellingShingle |
Codificador de voz Sistemas de comunicação de microondas D’Almeida, Frederico Quadros Técnicas eficientes de identificação automática de locutores |
description |
Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2009. === Submitted by Allan Wanick Motta (allan_wanick@hotmail.com) on 2010-04-01T14:43:12Z
No. of bitstreams: 1
2009_FredericoQuadrosDAlmeida.pdf: 1732276 bytes, checksum: e57b64ff73a3bbefb4a4673bcc025322 (MD5) === Approved for entry into archive by Lucila Saraiva(lucilasaraiva1@gmail.com) on 2010-04-02T00:36:42Z (GMT) No. of bitstreams: 1
2009_FredericoQuadrosDAlmeida.pdf: 1732276 bytes, checksum: e57b64ff73a3bbefb4a4673bcc025322 (MD5) === Made available in DSpace on 2010-04-02T00:36:42Z (GMT). No. of bitstreams: 1
2009_FredericoQuadrosDAlmeida.pdf: 1732276 bytes, checksum: e57b64ff73a3bbefb4a4673bcc025322 (MD5)
Previous issue date: 2009 === Os sistemas de identificação automática de locutor têm despertado crescente interesse científico atualmente. A aplicação de novas formas de modelagem da voz dos locutores tem melhorado de modo significativo a robustez desses sistemas a ruído, tornando sua aplicação prática viável em situações reais nas quais não se dispõe de áudio de boa qualidade. Contudo, essa crescente qualidade na modelagem e a consequente melhora no desempenho dos sistemas de identificação têm promovido, como efeito colateral, o aumento no custo computacional das tarefas de identificação. Em muitas situações, seja pelo grande número de locutores a serem testados, seja pela necessidade de uma resposta rápida do sistema, esse custo elevado torna proibitiva a aplicação efetiva das ferramentas de identificação automática de locutor. Neste trabalho são propostas, implementadas, avaliadas e validadas novas técnicas que buscam reduzir significativamente o custo computacional associado a tarefas de identificação automática de locutores sem, contudo, afetar o desempenho do sistema no que concerne às taxas de identificações corretas. Os métodos apresentados exploram características próprias dos modelos multicondicionais de mistura de gaussianas (GMM Gaussian Mixture Models), modelagem comumente aplicada nos sistemas de identificação de locutores robustos a variações na qualidade do áudio questionado. O foco principal das novas técnicas apresentadas é reduzir o número de componentes gaussianas a serem calculadas no processo de identificação, o que possibilita a consequente redução do custo computacional. Os resultados obtidos com as técnicas introduzidas neste trabalho demonstram que é possível obter reduções superiores a 90% no custo computacional das tarefas de identificação de locutores sem afetar o desempenho do sistema.
__________________________________________________________________________________ ABSTRACT === Automatic speaker identification systems are a very attractive research field currently. The application of new voice modeling techniques have significantly increased the noise robustness of the systems, making it possible to develop practical applications suited to real audio conditions, where one cannot guarantee high audio quality. However, these advances in voice modeling and the consequent improvement on the identification have caused, as a side effect, a relevant increas on the computational cost of the task. In many situations, the large number of speakers in the database or the need for a fast identification makes it prohibitive to accept this much elevated cost of the new modeling schemes. On this work, new techniques to reduce significantly the computational effort associated with automatic speaker identification tasks without affecting the system identification performance are presented, implemented, evaluated and validated. The presented methods explore some characteristics typical of the multiconditional Gaussian Mixture Models (GMM), a very commonly used modeling technique on noise robust speaker identification systems. The main goal of the new presented techniques is to reduce the number of gaussian components to be calculated during the speaker identification process, so that its computational cost is minimized. Results show that, by using a combination of the novel techniques, it is possible to surpass a 90% reduction on the effort of a speaker identification task without affecting the system performance. |
author2 |
Nascimento, Francisco Assis de Oliveira |
author_facet |
Nascimento, Francisco Assis de Oliveira D’Almeida, Frederico Quadros |
author |
D’Almeida, Frederico Quadros |
author_sort |
D’Almeida, Frederico Quadros |
title |
Técnicas eficientes de identificação automática de locutores |
title_short |
Técnicas eficientes de identificação automática de locutores |
title_full |
Técnicas eficientes de identificação automática de locutores |
title_fullStr |
Técnicas eficientes de identificação automática de locutores |
title_full_unstemmed |
Técnicas eficientes de identificação automática de locutores |
title_sort |
técnicas eficientes de identificação automática de locutores |
publishDate |
2010 |
url |
http://repositorio.unb.br/handle/10482/4038 |
work_keys_str_mv |
AT dalmeidafredericoquadros tecnicaseficientesdeidentificacaoautomaticadelocutores AT dalmeidafredericoquadros efficientautomaticspeakeridentificationtechniques |
_version_ |
1718736092725772288 |
spelling |
ndltd-IBICT-oai-repositorio.unb.br-10482-40382018-09-23T05:57:55Z Técnicas eficientes de identificação automática de locutores Efficient automatic speaker identification techniques D’Almeida, Frederico Quadros Nascimento, Francisco Assis de Oliveira Codificador de voz Sistemas de comunicação de microondas Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2009. Submitted by Allan Wanick Motta (allan_wanick@hotmail.com) on 2010-04-01T14:43:12Z No. of bitstreams: 1 2009_FredericoQuadrosDAlmeida.pdf: 1732276 bytes, checksum: e57b64ff73a3bbefb4a4673bcc025322 (MD5) Approved for entry into archive by Lucila Saraiva(lucilasaraiva1@gmail.com) on 2010-04-02T00:36:42Z (GMT) No. of bitstreams: 1 2009_FredericoQuadrosDAlmeida.pdf: 1732276 bytes, checksum: e57b64ff73a3bbefb4a4673bcc025322 (MD5) Made available in DSpace on 2010-04-02T00:36:42Z (GMT). No. of bitstreams: 1 2009_FredericoQuadrosDAlmeida.pdf: 1732276 bytes, checksum: e57b64ff73a3bbefb4a4673bcc025322 (MD5) Previous issue date: 2009 Os sistemas de identificação automática de locutor têm despertado crescente interesse científico atualmente. A aplicação de novas formas de modelagem da voz dos locutores tem melhorado de modo significativo a robustez desses sistemas a ruído, tornando sua aplicação prática viável em situações reais nas quais não se dispõe de áudio de boa qualidade. Contudo, essa crescente qualidade na modelagem e a consequente melhora no desempenho dos sistemas de identificação têm promovido, como efeito colateral, o aumento no custo computacional das tarefas de identificação. Em muitas situações, seja pelo grande número de locutores a serem testados, seja pela necessidade de uma resposta rápida do sistema, esse custo elevado torna proibitiva a aplicação efetiva das ferramentas de identificação automática de locutor. Neste trabalho são propostas, implementadas, avaliadas e validadas novas técnicas que buscam reduzir significativamente o custo computacional associado a tarefas de identificação automática de locutores sem, contudo, afetar o desempenho do sistema no que concerne às taxas de identificações corretas. Os métodos apresentados exploram características próprias dos modelos multicondicionais de mistura de gaussianas (GMM Gaussian Mixture Models), modelagem comumente aplicada nos sistemas de identificação de locutores robustos a variações na qualidade do áudio questionado. O foco principal das novas técnicas apresentadas é reduzir o número de componentes gaussianas a serem calculadas no processo de identificação, o que possibilita a consequente redução do custo computacional. Os resultados obtidos com as técnicas introduzidas neste trabalho demonstram que é possível obter reduções superiores a 90% no custo computacional das tarefas de identificação de locutores sem afetar o desempenho do sistema. __________________________________________________________________________________ ABSTRACT Automatic speaker identification systems are a very attractive research field currently. The application of new voice modeling techniques have significantly increased the noise robustness of the systems, making it possible to develop practical applications suited to real audio conditions, where one cannot guarantee high audio quality. However, these advances in voice modeling and the consequent improvement on the identification have caused, as a side effect, a relevant increas on the computational cost of the task. In many situations, the large number of speakers in the database or the need for a fast identification makes it prohibitive to accept this much elevated cost of the new modeling schemes. On this work, new techniques to reduce significantly the computational effort associated with automatic speaker identification tasks without affecting the system identification performance are presented, implemented, evaluated and validated. The presented methods explore some characteristics typical of the multiconditional Gaussian Mixture Models (GMM), a very commonly used modeling technique on noise robust speaker identification systems. The main goal of the new presented techniques is to reduce the number of gaussian components to be calculated during the speaker identification process, so that its computational cost is minimized. Results show that, by using a combination of the novel techniques, it is possible to surpass a 90% reduction on the effort of a speaker identification task without affecting the system performance. 2010-04-02T00:36:42Z 2010-04-02T00:36:42Z 2009 2009 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis D'ALMEIDA, Frederico Quadros. Técnicas eficientes de identificação automática de locutores. 2009. 146 f. Tese (Doutorado em Engenharia Elétrica)-Universidade de Brasília, Brasília, 2009. http://repositorio.unb.br/handle/10482/4038 por info:eu-repo/semantics/openAccess reponame:Repositório Institucional da UnB instname:Universidade de Brasília instacron:UNB |