COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR === PROGRAMA DE EXCELENCIA ACADEMICA === A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de re...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2013
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@2 |
id |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-23244 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-232442019-03-01T15:41:01Z COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION ESTUDO COMPARATIVO DE TÉCNICAS DE DIARIZAÇÃO DE LOCUTOR MARCELO DE CAMPOS NIERO ALVARO DE LIMA VEIGA FILHO ANDRE GUSTAVO ADAMI ALVARO DE LIMA VEIGA FILHO MARCO ANTONIO GRIVET MATTOSO MAIA FERNANDO GIL VIANNA RESENDE JUNIOR ANDRE GUSTAVO ADAMI DANTE AUGUSTO COUTO BARONE PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR PROGRAMA DE EXCELENCIA ACADEMICA A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de realizar, por exemplo, indexação de fala e locutor. De fato, realizar a diarização de locutor consiste em, dado uma gravação de ligação telefônica, reunião ou noticiários, deve responder a pergunta Quem falou quando? sem nenhuma informação prévia sobre o áudio. A resposta em questão nos permite saber as referências temporais das atividades de cada locutor participante na gravação. Computacionalmente falando, o processamento da diarização ocorre através de quatro etapas principais: extração de características do sinal, detecção de fala e não fala, segmentação e agrupamento. Neste trabalho realiza-se um estudo sobre a etapa de agrupamento, comparando o desempenho e comprovando problemas de algumas técnicas do estado da arte. Todos os experimento foram executados em uma base controlada, originada do corpus TIMIT, e outra real utilizada no concurso NIST-SRE 2002. The speaker diarization task emerged as a way to optimize audio information retrieval processing by detecting and tracking speech and speaker information. Actually, speaker diarization consists in answering the question Who spoke when for a given conversation in a telephone call, meeting, or broadcast news, without any prior information about neither the audio nor the speakers. This answer allows us to know the time references for each speaker in a recording. Computationally speaking, the diarization processing occurs through four main steps: feature extraction of the signal, speech and non-speech detection, segmentation and clustering. In this work, the clustering step is analyzed by comparing the performance of some methods used in the state of the art and showing some of their problems. All experiments are performed on an excerpt from the TIMIT corpus and the diarization task database used in the 2002 NIST Speaker Recognition Evaluation. 2013-09-09 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@2 por info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM ENGENHARIA ELÉTRICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
description |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR === PROGRAMA DE EXCELENCIA ACADEMICA === A tarefa de diarização de locutor surgiu como forma de otimizar o trabalho do homem em recuperar informações sobre áudios, com o objetivo de realizar, por exemplo, indexação de fala e locutor. De fato, realizar a diarização de locutor consiste em, dado uma gravação de ligação telefônica, reunião ou noticiários, deve responder a pergunta Quem falou quando? sem nenhuma informação prévia sobre o áudio. A resposta em questão nos permite saber as referências temporais das atividades de cada locutor participante na gravação. Computacionalmente falando, o processamento da diarização ocorre através de quatro etapas principais: extração de características do sinal, detecção de fala e não fala, segmentação e agrupamento. Neste trabalho realiza-se um estudo sobre a etapa de agrupamento, comparando o desempenho e comprovando problemas de algumas técnicas do estado da arte. Todos os experimento foram executados em uma base controlada, originada do corpus TIMIT, e outra real utilizada no concurso NIST-SRE 2002. === The speaker diarization task emerged as a way to optimize audio information retrieval processing by detecting and tracking speech and speaker information. Actually, speaker diarization consists in answering the question Who spoke when for a given conversation in a telephone call, meeting, or broadcast news, without any prior information about neither the audio nor the speakers. This answer allows us to know the time references for each speaker in a recording. Computationally speaking, the diarization processing occurs through four main steps: feature extraction of the signal, speech and non-speech detection, segmentation and clustering. In this work, the clustering step is analyzed by comparing the performance of some methods used in the state of the art and showing some of their problems. All experiments are performed on an excerpt from the TIMIT corpus and the diarization task database used in the 2002 NIST Speaker Recognition Evaluation. |
author2 |
ALVARO DE LIMA VEIGA FILHO |
author_facet |
ALVARO DE LIMA VEIGA FILHO MARCELO DE CAMPOS NIERO |
author |
MARCELO DE CAMPOS NIERO |
spellingShingle |
MARCELO DE CAMPOS NIERO COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION |
author_sort |
MARCELO DE CAMPOS NIERO |
title |
COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION |
title_short |
COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION |
title_full |
COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION |
title_fullStr |
COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION |
title_full_unstemmed |
COMPARATIVE STUDY OF TECHNIQUES TO SPEAKER DIARIZATION |
title_sort |
comparative study of techniques to speaker diarization |
publisher |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
publishDate |
2013 |
url |
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=23244@2 |
work_keys_str_mv |
AT marcelodecamposniero comparativestudyoftechniquestospeakerdiarization AT marcelodecamposniero estudocomparativodetecnicasdediarizacaodelocutor |
_version_ |
1718988358774947840 |