COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR === PROGRAMA DE EXCELENCIA ACADEMICA === A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de re...

Full description

Bibliographic Details
Main Author: MARCELO DE CAMPOS NIERO
Other Authors: ALVARO DE LIMA VEIGA FILHO
Language:Portuguese
Published: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO 2013
Online Access:http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@2
id ndltd-IBICT-oai-MAXWELL.puc-rio.br-23244
record_format oai_dc
spelling ndltd-IBICT-oai-MAXWELL.puc-rio.br-232442019-03-01T15:41:01Z COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION ESTUDO COMPARATIVO DE TÉCNICAS DE DIARIZAÇÃO DE LOCUTOR MARCELO DE CAMPOS NIERO ALVARO DE LIMA VEIGA FILHO ANDRE GUSTAVO ADAMI ALVARO DE LIMA VEIGA FILHO MARCO ANTONIO GRIVET MATTOSO MAIA FERNANDO GIL VIANNA RESENDE JUNIOR ANDRE GUSTAVO ADAMI DANTE AUGUSTO COUTO BARONE PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR PROGRAMA DE EXCELENCIA ACADEMICA A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de realizar, por exemplo, indexação de fala e locutor. De fato, realizar a diarização de locutor consiste em, dado uma gravação de ligação telefônica, reunião ou noticiários, deve responder a pergunta Quem falou quando? sem nenhuma informação prévia sobre o áudio. A resposta em questão nos permite saber as referências temporais das atividades de cada locutor participante na gravação. Computacionalmente falando, o processamento da diarização ocorre através de quatro etapas principais: extração de características do sinal, detecção de fala e não fala, segmentação e agrupamento. Neste trabalho realiza-se um estudo sobre a etapa de agrupamento, comparando o desempenho e comprovando problemas de algumas técnicas do estado da arte. Todos os experimento foram executados em uma base controlada, originada do corpus TIMIT, e outra real utilizada no concurso NIST-SRE 2002. The speaker diarization task emerged as a way to optimize audio information retrieval processing by detecting and tracking speech and speaker information. Actually, speaker diarization consists in answering the question Who spoke when for a given conversation in a telephone call, meeting, or broadcast news, without any prior information about neither the audio nor the speakers. This answer allows us to know the time references for each speaker in a recording. Computationally speaking, the diarization processing occurs through four main steps: feature extraction of the signal, speech and non-speech detection, segmentation and clustering. In this work, the clustering step is analyzed by comparing the performance of some methods used in the state of the art and showing some of their problems. All experiments are performed on an excerpt from the TIMIT corpus and the diarization task database used in the 2002 NIST Speaker Recognition Evaluation. 2013-09-09 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@2 por info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM ENGENHARIA ELÉTRICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO
collection NDLTD
language Portuguese
sources NDLTD
description PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR === PROGRAMA DE EXCELENCIA ACADEMICA === A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de realizar, por exemplo, indexação de fala e locutor. De fato, realizar a diarização de locutor consiste em, dado uma gravação de ligação telefônica, reunião ou noticiários, deve responder a pergunta Quem falou quando? sem nenhuma informação prévia sobre o áudio. A resposta em questão nos permite saber as referências temporais das atividades de cada locutor participante na gravação. Computacionalmente falando, o processamento da diarização ocorre através de quatro etapas principais: extração de características do sinal, detecção de fala e não fala, segmentação e agrupamento. Neste trabalho realiza-se um estudo sobre a etapa de agrupamento, comparando o desempenho e comprovando problemas de algumas técnicas do estado da arte. Todos os experimento foram executados em uma base controlada, originada do corpus TIMIT, e outra real utilizada no concurso NIST-SRE 2002. === The speaker diarization task emerged as a way to optimize audio information retrieval processing by detecting and tracking speech and speaker information. Actually, speaker diarization consists in answering the question Who spoke when for a given conversation in a telephone call, meeting, or broadcast news, without any prior information about neither the audio nor the speakers. This answer allows us to know the time references for each speaker in a recording. Computationally speaking, the diarization processing occurs through four main steps: feature extraction of the signal, speech and non-speech detection, segmentation and clustering. In this work, the clustering step is analyzed by comparing the performance of some methods used in the state of the art and showing some of their problems. All experiments are performed on an excerpt from the TIMIT corpus and the diarization task database used in the 2002 NIST Speaker Recognition Evaluation.
author2 ALVARO DE LIMA VEIGA FILHO
author_facet ALVARO DE LIMA VEIGA FILHO
MARCELO DE CAMPOS NIERO
author MARCELO DE CAMPOS NIERO
spellingShingle MARCELO DE CAMPOS NIERO
COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
author_sort MARCELO DE CAMPOS NIERO
title COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
title_short COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
title_full COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
title_fullStr COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
title_full_unstemmed COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
title_sort comparative study of techniques to speaker diarization
publisher PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
publishDate 2013
url http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@2
work_keys_str_mv AT marcelodecamposniero comparativestudyoftechniquestospeakerdiarization
AT marcelodecamposniero estudocomparativodetecnicasdediarizacaodelocutor
_version_ 1718988358774947840