Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso

Atualmente, diversos trabalhos e aplicações são desenvolvidos com foco na área de reconhecimento computacional de locutores. À medida que o interesse por diversas aplicações reais dentro dessa área emerge, principalmente em biometria, na qual a segurança e a eficácia são de extrema importância,...

Full description

Bibliographic Details
Main Author:	William Habaro Ishizawa
Other Authors:	Rodrigo Capobianco Guido
Language:	Portuguese
Published:	Universidade de São Paulo 2015
Subjects:	Acústica Escala Bark Processamento de sinais Reconhecimento de locutor Acoustics Bark scale Signal processing Speaker recognition
Online Access:	http://www.teses.usp.br/teses/disponiveis/76/76132/tde-16042015-104351/

id	ndltd-IBICT-oai-teses.usp.br-tde-16042015-104351
record_format	oai_dc
spelling	ndltd-IBICT-oai-teses.usp.br-tde-16042015-1043512019-01-21T23:34:53Z Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso Analysis of energy cocentrations in the threshold between voiced and unvoiced phonemes and their implications for text-dependent speaker recognition William Habaro Ishizawa Rodrigo Capobianco Guido Carlos Magnus Carlson Filho Hani Camille Yehia Acústica Escala Bark Processamento de sinais Reconhecimento de locutor Acoustics Bark scale Signal processing Speaker recognition Atualmente, diversos trabalhos e aplicações são desenvolvidos com foco na área de reconhecimento computacional de locutores. À medida que o interesse por diversas aplicações reais dentro dessa área emerge, principalmente em biometria, na qual a segurança e a eficácia são de extrema importância, torna-se cada vez mais necessário que estudos sejam feitos, na mesma proporção, visando avaliá-las. Desse modo, a proposta do presente trabalho é a de mensurar a acurácia de um sistema de reconhecimento de locutores baseado em características elementares, isto é, energias de sub-bandas de frequências, em associação com um classificador probabilístico, estudando a viabilidade de extraí-las das transições entre trechos vozeados e não-vozeados (TTVNV) dos sinais. Testes são realizados com diferentes quantidades de locutores e discurso fixado. A acurácia obtida nos testes variam de 20.18% a 92.53%. Os resultados obtidos são comparados e relatados, complementando as afirmações existentes na literatura sobre o uso das TTVNV com dados quantitativos. Nowadays, many works and applications are developed focusing on computational speaker recognition. As the interest for several real applications within this area emerges, especially in biometrics, where the safety and the efficacy of the applications are extremely important, studies need to be developed in the same proportion, to evaluate the effectiveness of such approaches. Based on that, this work intends to measure the accuracy of a speaker recognition system that uses elementar features, i.e., sub-band frequency energies, associated with a probabilistic classifier, studying the viability of extracting them from the transition between voiced and unvoiced speech tags (TTVNV). Tests are carried out with different numbers of speakers and a text-dependent approach. The accuracy of the tests varies from 20.18% to 92.53%. The results are compared and reported, complementing the existent information on the use of TTVNV with quantitative data. 2015-02-19 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/76/76132/tde-16042015-104351/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Física USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP
collection	NDLTD
language	Portuguese
sources	NDLTD
topic	Acústica Escala Bark Processamento de sinais Reconhecimento de locutor Acoustics Bark scale Signal processing Speaker recognition
spellingShingle	Acústica Escala Bark Processamento de sinais Reconhecimento de locutor Acoustics Bark scale Signal processing Speaker recognition William Habaro Ishizawa Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso
description	Atualmente, diversos trabalhos e aplicações são desenvolvidos com foco na área de reconhecimento computacional de locutores. À medida que o interesse por diversas aplicações reais dentro dessa área emerge, principalmente em biometria, na qual a segurança e a eficácia são de extrema importância, torna-se cada vez mais necessário que estudos sejam feitos, na mesma proporção, visando avaliá-las. Desse modo, a proposta do presente trabalho é a de mensurar a acurácia de um sistema de reconhecimento de locutores baseado em características elementares, isto é, energias de sub-bandas de frequências, em associação com um classificador probabilístico, estudando a viabilidade de extraí-las das transições entre trechos vozeados e não-vozeados (TTVNV) dos sinais. Testes são realizados com diferentes quantidades de locutores e discurso fixado. A acurácia obtida nos testes variam de 20.18% a 92.53%. Os resultados obtidos são comparados e relatados, complementando as afirmações existentes na literatura sobre o uso das TTVNV com dados quantitativos. === Nowadays, many works and applications are developed focusing on computational speaker recognition. As the interest for several real applications within this area emerges, especially in biometrics, where the safety and the efficacy of the applications are extremely important, studies need to be developed in the same proportion, to evaluate the effectiveness of such approaches. Based on that, this work intends to measure the accuracy of a speaker recognition system that uses elementar features, i.e., sub-band frequency energies, associated with a probabilistic classifier, studying the viability of extracting them from the transition between voiced and unvoiced speech tags (TTVNV). Tests are carried out with different numbers of speakers and a text-dependent approach. The accuracy of the tests varies from 20.18% to 92.53%. The results are compared and reported, complementing the existent information on the use of TTVNV with quantitative data.
author2	Rodrigo Capobianco Guido
author_facet	Rodrigo Capobianco Guido William Habaro Ishizawa
author	William Habaro Ishizawa
author_sort	William Habaro Ishizawa
title	Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso
title_short	Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso
title_full	Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso
title_fullStr	Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso
title_full_unstemmed	Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso
title_sort	análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso
publisher	Universidade de São Paulo
publishDate	2015
url	http://www.teses.usp.br/teses/disponiveis/76/76132/tde-16042015-104351/
work_keys_str_mv	AT williamhabaroishizawa analisedasconcentracoesenergeticasnolimiarentrefonemasvozeadosenaovozeadosesuasimplicacoesparafinsdereconhecimentodelocutoresdependentedodiscurso AT williamhabaroishizawa analysisofenergycocentrationsinthethresholdbetweenvoicedandunvoicedphonemesandtheirimplicationsfortextdependentspeakerrecognition
_version_	1718909311283888128

Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso

Similar Items