Identificação automática de relações multidocumento

O tratamento multidocumento mostra-se indispensável no cenário atual das mídias eletrônicas, em que são produzidos diversos documentos sobre um mesmo tópico, principalmente quando se considera a explosão de informação permitida pela web. Tanto leitores quanto aplicações computacionais se beneficiam...

Full description

Bibliographic Details
Main Author:	Maziero, Erick Galani
Other Authors:	Pardo, Thiago Alexandre Salgueiro
Format:	Others
Language:	pt
Published:	Biblioteca Digitais de Teses e Dissertações da USP 2012
Subjects:	Análise multidocumento Aprendizado automático Cross-document structure theory Cross-document strucure theory Machine learning Multidocument analysis Multidocument parsing Multidocument relationship Relações multidocumento Rules
Online Access:	http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032012-111155/

id	ndltd-usp.br-oai-teses.usp.br-tde-29032012-111155
record_format	oai_dc
spelling	ndltd-usp.br-oai-teses.usp.br-tde-29032012-1111552019-05-09T21:54:00Z Identificação automática de relações multidocumento Automatic identification of multidocument relations Maziero, Erick Galani Análise multidocumento Aprendizado automático Cross-document structure theory Cross-document strucure theory Machine learning Multidocument analysis Multidocument parsing Multidocument relationship Relações multidocumento Rules O tratamento multidocumento mostra-se indispensável no cenário atual das mídias eletrônicas, em que são produzidos diversos documentos sobre um mesmo tópico, principalmente quando se considera a explosão de informação permitida pela web. Tanto leitores quanto aplicações computacionais se beneficiam da análise discursiva multidocumento por meio da qual são explicitadas relações entre as porções dos documentos, por exemplo, relações de equivalência, contradição ou de contextualização de alguma informação. A fim de realizar o tratamento automático multidocumento, adota-se neste trabalho a teoria linguístico-computacional CST (Cross-document Structure Theory, Radev, 2000). Esse tipo de conhecimento multidocumento permite que (i) se tratem mais apropriadamente fenômenos como redundância, complementariedade e contradição de informações e, consequentemente, (ii) produzam-se sistemas melhores de processamento textual, como buscadores web mais inteligentes e sumarizadores automáticos. Neste trabalho é apresentada uma metodologia de identificação dessas relações explorando-se técnicas de aprendizado automático do paradigma tradicional e hierárquico. Para relações que não são passíveis de identificação por aprendizado automático foram desenvolvidas regras para sua identificação. Por fim, um parser é gerado contendo classificadores e regras The multi-document treatment is essential in the current scenario of electronic media, in which many documents are produced about a same topic, mainly when considering the explosion of information allowed by the web. Both readers and computational applications are benefited by the discursive multi-document analysis, through which the relations (for example, equivalence, contradiction or background relations) among the portions of text are showed. In order to achieve the automatic multi-document treatment, the CST (Cross-document Structure Theory, Radev, 2000) is adopted in this work. This kind of knowledge allow (i) the appropriated treatment of phenomena like redundancy, complementarity and contradiction of information and, consequently, (ii) the production of better systems of text processing, as more intelligent web searchers and automatic summarizers. In this work, a methodology to identify these relations is presented exploring techniques of machine learning of the traditional and hierarchical paradigm. For relations with low frequency in the corpus, handcrafted rules were developed. Finally, a parser is generated containing classifiers and rules Biblioteca Digitais de Teses e Dissertações da USP Pardo, Thiago Alexandre Salgueiro 2012-01-16 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032012-111155/ pt Liberar o conteúdo para acesso público.
collection	NDLTD
language	pt
format	Others
sources	NDLTD
topic	Análise multidocumento Aprendizado automático Cross-document structure theory Cross-document strucure theory Machine learning Multidocument analysis Multidocument parsing Multidocument relationship Relações multidocumento Rules
spellingShingle	Análise multidocumento Aprendizado automático Cross-document structure theory Cross-document strucure theory Machine learning Multidocument analysis Multidocument parsing Multidocument relationship Relações multidocumento Rules Maziero, Erick Galani Identificação automática de relações multidocumento
description	O tratamento multidocumento mostra-se indispensável no cenário atual das mídias eletrônicas, em que são produzidos diversos documentos sobre um mesmo tópico, principalmente quando se considera a explosão de informação permitida pela web. Tanto leitores quanto aplicações computacionais se beneficiam da análise discursiva multidocumento por meio da qual são explicitadas relações entre as porções dos documentos, por exemplo, relações de equivalência, contradição ou de contextualização de alguma informação. A fim de realizar o tratamento automático multidocumento, adota-se neste trabalho a teoria linguístico-computacional CST (Cross-document Structure Theory, Radev, 2000). Esse tipo de conhecimento multidocumento permite que (i) se tratem mais apropriadamente fenômenos como redundância, complementariedade e contradição de informações e, consequentemente, (ii) produzam-se sistemas melhores de processamento textual, como buscadores web mais inteligentes e sumarizadores automáticos. Neste trabalho é apresentada uma metodologia de identificação dessas relações explorando-se técnicas de aprendizado automático do paradigma tradicional e hierárquico. Para relações que não são passíveis de identificação por aprendizado automático foram desenvolvidas regras para sua identificação. Por fim, um parser é gerado contendo classificadores e regras === The multi-document treatment is essential in the current scenario of electronic media, in which many documents are produced about a same topic, mainly when considering the explosion of information allowed by the web. Both readers and computational applications are benefited by the discursive multi-document analysis, through which the relations (for example, equivalence, contradiction or background relations) among the portions of text are showed. In order to achieve the automatic multi-document treatment, the CST (Cross-document Structure Theory, Radev, 2000) is adopted in this work. This kind of knowledge allow (i) the appropriated treatment of phenomena like redundancy, complementarity and contradiction of information and, consequently, (ii) the production of better systems of text processing, as more intelligent web searchers and automatic summarizers. In this work, a methodology to identify these relations is presented exploring techniques of machine learning of the traditional and hierarchical paradigm. For relations with low frequency in the corpus, handcrafted rules were developed. Finally, a parser is generated containing classifiers and rules
author2	Pardo, Thiago Alexandre Salgueiro
author_facet	Pardo, Thiago Alexandre Salgueiro Maziero, Erick Galani
author	Maziero, Erick Galani
author_sort	Maziero, Erick Galani
title	Identificação automática de relações multidocumento
title_short	Identificação automática de relações multidocumento
title_full	Identificação automática de relações multidocumento
title_fullStr	Identificação automática de relações multidocumento
title_full_unstemmed	Identificação automática de relações multidocumento
title_sort	identificação automática de relações multidocumento
publisher	Biblioteca Digitais de Teses e Dissertações da USP
publishDate	2012
url	http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032012-111155/
work_keys_str_mv	AT mazieroerickgalani identificacaoautomaticaderelacoesmultidocumento AT mazieroerickgalani automaticidentificationofmultidocumentrelations
_version_	1719076635360100352

Identificação automática de relações multidocumento

Similar Items