Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado

Submitted by Victor de Abreu Campos null (victorde.ac@gmail.com) on 2017-09-27T02:41:28Z No. of bitstreams: 1 dissertacao.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) === Approved for entry into archive by Monique Sasaki (sayumi_sasaki@hotmail.com) on 2017-09-28T13:43:21Z (GM...

Full description

Bibliographic Details
Main Author: Campos, Victor de Abreu [UNESP]
Other Authors: Universidade Estadual Paulista (UNESP)
Language:Portuguese
Published: Universidade Estadual Paulista (UNESP) 2017
Subjects:
PLP
VQ
GMM
Online Access:http://hdl.handle.net/11449/151725
id ndltd-IBICT-oai-repositorio.unesp.br-11449-151725
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic MFCC
PLP
VQ
GMM
i-vector
RL-Sim
ReckNN
Reconhecimento de locutor
Aprendizado não supervisionado
Speaker recognition
Unsupervised learning
spellingShingle MFCC
PLP
VQ
GMM
i-vector
RL-Sim
ReckNN
Reconhecimento de locutor
Aprendizado não supervisionado
Speaker recognition
Unsupervised learning
Campos, Victor de Abreu [UNESP]
Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
description Submitted by Victor de Abreu Campos null (victorde.ac@gmail.com) on 2017-09-27T02:41:28Z No. of bitstreams: 1 dissertacao.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) === Approved for entry into archive by Monique Sasaki (sayumi_sasaki@hotmail.com) on 2017-09-28T13:43:21Z (GMT) No. of bitstreams: 1 campos_va_me_sjrp.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) === Made available in DSpace on 2017-09-28T13:43:21Z (GMT). No. of bitstreams: 1 campos_va_me_sjrp.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) Previous issue date: 2017-08-31 === Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) === A quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de recuperação de locutor e ganhos de acurácia relativos de até +7,05% na tarefa de identificação entre gravações de domínios diferentes. === The huge amount of multimedia content accumulated daily has demanded the development of effective retrieval approaches. In this context, speaker recognition tools capable of automatically identifying a person through their voice are of great relevance. This work presents a novel speaker recognition approach modelled as a retrieval scenario and using recent unsupervised learning methods. The proposed approach considers Mel-Frequency Cepstral Coefficients (MFCCs) and Perceptual Linear Prediction Coefficients (PLPs) as features along with multiple modelling approaches, namely Vector Quantization, Gaussian Mixture Models and i-vector to compute distances among audio objects. Next, rank-based unsupervised learning methods are used for improving the effectiveness of retrieval results and, based on a K-Nearest Neighbors classifier, an identity decision is taken. Several experiments were conducted considering three public datasets from different scenarios, carrying noise from various sources. Experimental results demonstrate that the proposed approach can achieve very high effectiveness results. In addition, effectiveness gains up to +318% were obtained by the unsupervised learning procedure in a speaker retrieval task. Also, accuracy gains up to +7,05% were obtained by the unsupervised learning procedure in a speaker identification task considering recordings from different domains. === FAPESP: 2015/07934-4
author2 Universidade Estadual Paulista (UNESP)
author_facet Universidade Estadual Paulista (UNESP)
Campos, Victor de Abreu [UNESP]
author Campos, Victor de Abreu [UNESP]
author_sort Campos, Victor de Abreu [UNESP]
title Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_short Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_full Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_fullStr Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_full_unstemmed Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
title_sort arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado
publisher Universidade Estadual Paulista (UNESP)
publishDate 2017
url http://hdl.handle.net/11449/151725
work_keys_str_mv AT camposvictordeabreuunesp arcaboucoparareconhecimentodelocutorbaseadoemaprendizadonaosupervisionado
AT camposvictordeabreuunesp speakerrecognitionframeworkbasedonunsupervisedlearning
_version_ 1718663194254245888
spelling ndltd-IBICT-oai-repositorio.unesp.br-11449-1517252018-05-23T20:52:49Z Arcabouço para reconhecimento de locutor baseado em aprendizado não supervisionado Speaker recognition framework based on unsupervised learning Campos, Victor de Abreu [UNESP] Universidade Estadual Paulista (UNESP) Pedronette, Daniel Carlos Guimarães [UNESP] MFCC PLP VQ GMM i-vector RL-Sim ReckNN Reconhecimento de locutor Aprendizado não supervisionado Speaker recognition Unsupervised learning Submitted by Victor de Abreu Campos null (victorde.ac@gmail.com) on 2017-09-27T02:41:28Z No. of bitstreams: 1 dissertacao.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) Approved for entry into archive by Monique Sasaki (sayumi_sasaki@hotmail.com) on 2017-09-28T13:43:21Z (GMT) No. of bitstreams: 1 campos_va_me_sjrp.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) Made available in DSpace on 2017-09-28T13:43:21Z (GMT). No. of bitstreams: 1 campos_va_me_sjrp.pdf: 5473435 bytes, checksum: 1e76ecc15a4499dc141983740cc79e5a (MD5) Previous issue date: 2017-08-31 Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) A quantidade vertiginosa de conteúdo multimídia acumulada diariamente tem demandado o desenvolvimento de abordagens eficazes de recuperação. Nesse contexto, ferramentas de reconhecimento de locutor capazes de identificar automaticamente um indivíduo pela sua voz são de grande relevância. Este trabalho apresenta uma nova abordagem de reconhecimento de locutor modelado como um cenário de recuperação e usando algoritmos de aprendizado não supervisionado recentes. A abordagem proposta considera Coeficientes Cepstrais de Frequência Mel (MFCCs) e Coeficientes de Predição Linear Perceptual (PLPs) como características de locutor, em combinação com múltiplas abordagens de modelagem probabilística, especificamente Quantização Vetorial, Modelos por Mistura de Gaussianas e i-vectors, para calcular distâncias entre gravações de áudio. Em seguida, métodos de aprendizado não supervisionado baseados em ranqueamento são utilizados para aperfeiçoar a eficácia dos resultados de recuperação e, com a aplicação de um classificador de K-Vizinhos Mais Próximos, toma-se uma decisão quanto a identidade do locutor. Experimentos foram conduzidos considerando três conjuntos de dados públicos de diferentes cenários e carregando ruídos de diversas origens. Resultados da avaliação experimental demonstram que a abordagem proposta pode atingir resultados de eficácia altos. Adicionalmente, ganhos de eficácia relativos de até +318% foram obtidos pelo procedimento de aprendizado não supervisionado na tarefa de recuperação de locutor e ganhos de acurácia relativos de até +7,05% na tarefa de identificação entre gravações de domínios diferentes. The huge amount of multimedia content accumulated daily has demanded the development of effective retrieval approaches. In this context, speaker recognition tools capable of automatically identifying a person through their voice are of great relevance. This work presents a novel speaker recognition approach modelled as a retrieval scenario and using recent unsupervised learning methods. The proposed approach considers Mel-Frequency Cepstral Coefficients (MFCCs) and Perceptual Linear Prediction Coefficients (PLPs) as features along with multiple modelling approaches, namely Vector Quantization, Gaussian Mixture Models and i-vector to compute distances among audio objects. Next, rank-based unsupervised learning methods are used for improving the effectiveness of retrieval results and, based on a K-Nearest Neighbors classifier, an identity decision is taken. Several experiments were conducted considering three public datasets from different scenarios, carrying noise from various sources. Experimental results demonstrate that the proposed approach can achieve very high effectiveness results. In addition, effectiveness gains up to +318% were obtained by the unsupervised learning procedure in a speaker retrieval task. Also, accuracy gains up to +7,05% were obtained by the unsupervised learning procedure in a speaker identification task considering recordings from different domains. FAPESP: 2015/07934-4 2017-09-28T13:43:21Z 2017-09-28T13:43:21Z 2017-08-31 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/11449/151725 000892503 33004153073P2 por -1 -1 info:eu-repo/semantics/openAccess Universidade Estadual Paulista (UNESP) reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista instacron:UNESP