Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas d...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
Universidade de São Paulo
2011
|
Subjects: | |
Online Access: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19072011-144521/ |
id |
ndltd-IBICT-oai-teses.usp.br-tde-19072011-144521 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-teses.usp.br-tde-19072011-1445212019-01-21T22:09:48Z Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado Co-reference resolution in multiples documents through unsupervised learning Jefferson Fontinele da Silva João Luis Garcia Rosa Ivandre Paraboni Lucia Helena Machado Rino Aprendizado não supervisionado Correferência Múltiplos documentos Processamento de línguas naturais Coreference Multiple documents Natural language processing Unsupervised learning Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres One of the problems found in Natural Language Processing (NLP) systems is the difficulty of identifying textual elements that refer to the same entity. This phenomenon, in which the set of textual elements refers to a single entity, is called coreference. Coreference resolution systems can improve the performance of various NLP applications, such as automatic summarization, information extraction systems, question answering systems. Recently, research in NLP has explored the possibility of identifying the coreferent elements in multiple documents. In this context, this work focuses on the development of an unsupervised method for coreference resolution in multiple documents, using Portuguese as the target language. Until now, it is not known any system for this purpose for the Portuguese. The results of the experiments with the system suggest that the developed method is superior to methods based on string matching 2011-05-05 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19072011-144521/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Ciências da Computação e Matemática Computacional USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
Aprendizado não supervisionado
Correferência Múltiplos documentos Processamento de línguas naturais Coreference Multiple documents Natural language processing Unsupervised learning |
spellingShingle |
Aprendizado não supervisionado
Correferência Múltiplos documentos Processamento de línguas naturais Coreference Multiple documents Natural language processing Unsupervised learning Jefferson Fontinele da Silva Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado |
description |
Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres
===
One of the problems found in Natural Language Processing (NLP) systems is the difficulty of identifying textual elements that refer to the same entity. This phenomenon, in which the set of textual elements refers to a single entity, is called coreference. Coreference resolution systems can improve the performance of various NLP applications, such as automatic summarization, information extraction systems, question answering systems. Recently, research in NLP has explored the possibility of identifying the coreferent elements in multiple documents. In this context, this work focuses on the development of an unsupervised method for coreference resolution in multiple documents, using Portuguese as the target language. Until now, it is not known any system for this purpose for the Portuguese. The results of the experiments with the system suggest that the developed method is superior to methods based on string matching
|
author2 |
João Luis Garcia Rosa |
author_facet |
João Luis Garcia Rosa Jefferson Fontinele da Silva |
author |
Jefferson Fontinele da Silva |
author_sort |
Jefferson Fontinele da Silva |
title |
Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
|
title_short |
Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
|
title_full |
Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
|
title_fullStr |
Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
|
title_full_unstemmed |
Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
|
title_sort |
resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado |
publisher |
Universidade de São Paulo |
publishDate |
2011 |
url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19072011-144521/ |
work_keys_str_mv |
AT jeffersonfontineledasilva resolucaodecorreferenciaemmultiplosdocumentosutilizandoaprendizadonaosupervisionado AT jeffersonfontineledasilva coreferenceresolutioninmultiplesdocumentsthroughunsupervisedlearning |
_version_ |
1718891492837163008 |