Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado

Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas d...

Full description

Bibliographic Details
Main Author: Jefferson Fontinele da Silva
Other Authors: João Luis Garcia Rosa
Language:Portuguese
Published: Universidade de São Paulo 2011
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19072011-144521/
id ndltd-IBICT-oai-teses.usp.br-tde-19072011-144521
record_format oai_dc
spelling ndltd-IBICT-oai-teses.usp.br-tde-19072011-1445212019-01-21T22:09:48Z Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado Co-reference resolution in multiples documents through unsupervised learning Jefferson Fontinele da Silva João Luis Garcia Rosa Ivandre Paraboni Lucia Helena Machado Rino Aprendizado não supervisionado Correferência Múltiplos documentos Processamento de línguas naturais Coreference Multiple documents Natural language processing Unsupervised learning Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres One of the problems found in Natural Language Processing (NLP) systems is the difficulty of identifying textual elements that refer to the same entity. This phenomenon, in which the set of textual elements refers to a single entity, is called coreference. Coreference resolution systems can improve the performance of various NLP applications, such as automatic summarization, information extraction systems, question answering systems. Recently, research in NLP has explored the possibility of identifying the coreferent elements in multiple documents. In this context, this work focuses on the development of an unsupervised method for coreference resolution in multiple documents, using Portuguese as the target language. Until now, it is not known any system for this purpose for the Portuguese. The results of the experiments with the system suggest that the developed method is superior to methods based on string matching 2011-05-05 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19072011-144521/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Ciências da Computação e Matemática Computacional USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP
collection NDLTD
language Portuguese
sources NDLTD
topic Aprendizado não supervisionado
Correferência
Múltiplos documentos
Processamento de línguas naturais
Coreference
Multiple documents
Natural language processing
Unsupervised learning
spellingShingle Aprendizado não supervisionado
Correferência
Múltiplos documentos
Processamento de línguas naturais
Coreference
Multiple documents
Natural language processing
Unsupervised learning
Jefferson Fontinele da Silva
Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
description Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres === One of the problems found in Natural Language Processing (NLP) systems is the difficulty of identifying textual elements that refer to the same entity. This phenomenon, in which the set of textual elements refers to a single entity, is called coreference. Coreference resolution systems can improve the performance of various NLP applications, such as automatic summarization, information extraction systems, question answering systems. Recently, research in NLP has explored the possibility of identifying the coreferent elements in multiple documents. In this context, this work focuses on the development of an unsupervised method for coreference resolution in multiple documents, using Portuguese as the target language. Until now, it is not known any system for this purpose for the Portuguese. The results of the experiments with the system suggest that the developed method is superior to methods based on string matching
author2 João Luis Garcia Rosa
author_facet João Luis Garcia Rosa
Jefferson Fontinele da Silva
author Jefferson Fontinele da Silva
author_sort Jefferson Fontinele da Silva
title Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
title_short Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
title_full Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
title_fullStr Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
title_full_unstemmed Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
title_sort resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado
publisher Universidade de São Paulo
publishDate 2011
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-19072011-144521/
work_keys_str_mv AT jeffersonfontineledasilva resolucaodecorreferenciaemmultiplosdocumentosutilizandoaprendizadonaosupervisionado
AT jeffersonfontineledasilva coreferenceresolutioninmultiplesdocumentsthroughunsupervisedlearning
_version_ 1718891492837163008