Uso de sintagmas nominais na classificação automática de documentos eletrônicos

=== This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by...

Full description

Bibliographic Details
Main Author:	Luiz Claudio Gomes Maia
Other Authors:	Renato Rocha Souza
Format:	Others
Language:	Portuguese
Published:	Universidade Federal de Minas Gerais 2008
Online Access:	http://hdl.handle.net/1843/ECID-7NXJKZ

id	ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-ECID-7NXJKZ
record_format	oai_dc
spelling	ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-ECID-7NXJKZ2019-01-21T17:55:11Z Uso de sintagmas nominais na classificação automática de documentos eletrônicos Luiz Claudio Gomes Maia Renato Rocha Souza George Leal Jamil Marcello Peixoto Bax Beatriz Valadares Cendon Manoel Palhares Moreira This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases. Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores. 2008-12-12 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/1843/ECID-7NXJKZ por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010028P2 - CIÊNCIA DA INFORMAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
description	=== This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases. === Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.
author2	Renato Rocha Souza
author_facet	Renato Rocha Souza Luiz Claudio Gomes Maia
author	Luiz Claudio Gomes Maia
spellingShingle	Luiz Claudio Gomes Maia Uso de sintagmas nominais na classificação automática de documentos eletrônicos
author_sort	Luiz Claudio Gomes Maia
title	Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_short	Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_full	Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_fullStr	Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_full_unstemmed	Uso de sintagmas nominais na classificação automática de documentos eletrônicos
title_sort	uso de sintagmas nominais na classificação automática de documentos eletrônicos
publisher	Universidade Federal de Minas Gerais
publishDate	2008
url	http://hdl.handle.net/1843/ECID-7NXJKZ
work_keys_str_mv	AT luizclaudiogomesmaia usodesintagmasnominaisnaclassificacaoautomaticadedocumentoseletronicos
_version_	1718844193309196288

Uso de sintagmas nominais na classificação automática de documentos eletrônicos

Similar Items