Uso de contextos temporais para classificação de documentos

=== Due to the increasing amount of information being stored and accessible throughthe Web, Automatic Document Classification (ADC) has become an important research topic. ADC usually employs a supervised learning strategy, where we first build a classification model using pre-classified documents...

Full description

Bibliographic Details
Main Author: Leonardo Chaves Dutra da Rocha
Other Authors: Wagner Meira Junior
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2009
Online Access:http://hdl.handle.net/1843/SLSS-7WCQEY
id ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-7WCQEY
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
description === Due to the increasing amount of information being stored and accessible throughthe Web, Automatic Document Classification (ADC) has become an important research topic. ADC usually employs a supervised learning strategy, where we first build a classification model using pre-classified documents and then use it to classify unseen documents. One major challenge for ADC in many scenarios is that the characteristics of the documents and the classes to which they belong may change over time, since new documents are created, new information rise, new terms also are introduced and, consequently, the class definitions may change. Despite the potential quality reduction in the classification models associated with temporal-related changes, most of the current techniques for ADC are applied without taking into account the temporal evolution of the collection of documents. As we will see in this work, an important challenge in building classifiers is to deal with this temporal evolution.The two main hypotheses of this dissertation are: (1) the temporal evolution of the document collections significantly affects the performance of automatic document classifiers, and (2) the dimensions that compose this temporal evolution can be taken into account in order to build better classifiers, which are more efficient and effective. Thus, the goal of this thesis is to characterize, quantitatively and qualitatively, the impact of the temporal evolution of document collections on automatic document classifiers, identifying the dimensions that compose this impact. Moreover, based on this characterization, the goal is to propose alternate strategies that can be used to minimize the challenges associated with the temporal evolution of the collections on automatic document classifiers. The main expected contributions of this thesis are: (1) demonstration and quantification of the temporal evolution and how this affects automatic document classifiers, (2) identification of the effect dimensions that compose the temporal evolution, (3) quantification and qualification of each dimension identified, (4) design of a model to select contexts of the training set that minimize the temporal effects, and (5) the validation of this model using different document collections and classification algorithms. === Devido à crescente quantidade de informação que vem sendo armazenada e acessada por meio da Web, Classificação Automática de Documentos (CAD) tem se tornado um importante tópico de pesquisa. CAD normalmente segue uma estratégia de aprendizado em que primeiro se constrói um modelo de classificação utilizando documentos pré-classificados e então aplica-se esse modelo para classificar os demais documentos. Um dos maiores desafios em CAD é que as características dos documentos e das classes às quais eles pertencem mudam ao longo do tempo, uma vez que novos documentos são criados, novas informações surgem, novos termos também são introduzidos e, conseqüentemente, as definições das classes podem mudar. Apesar da potencial redução de qualidade dos modelos de classificação associado com as mudanças relacionadas ao tempo, a maioria das técnicas atuais de CAD não consideram a evolução temporal das coleções de documentos. Assim, conforme veremos nesse trabalho, um importante desafio é construir modelos de classificação que sejam capazes de lidar com essa evolução temporal. As duas principais hipóteses desta tese são: (1) a evolução temporal das coleções de documentos afeta significativamente o desempenho dos classificadores automáticos de texto e (2) as dimensões que compõem essa evolução temporal podem ser exploradas de forma a construir melhores classificadores, mais eficientes e mais efetivos. Dessa forma, o objetivo dessa tese é caracterizar, quantificar e qualificar, o impacto da evolução temporal das coleções de documentos sobre os classificadores automáticos de documentos, identificando as dimensões que compõem esse impacto. Além disso, utilizando o conhecimento adquirido com essa caracterização, o objetivo é propor alternativas para que os problemas causados pela evolução temporal das coleções nos classificadores automáticos de documentos sejam minimizados. As principais contribuições desta tese são: (1) demonstração da existência e quantificação do impacto da evolução temporal em classificação automática de documentos, (2) identificação das dimensões que compõem a evolução temporal, (3) qualificação e quantificação de cada uma das dimensões identificadas, (4) criação de um modelo de seleção de contextos do conjunto de treinamento que minimize os efeitos temporais e (5) a instanciação e validação do modelo utilizando diferentes coleções de documentos e algoritmos de classificação.
author2 Wagner Meira Junior
author_facet Wagner Meira Junior
Leonardo Chaves Dutra da Rocha
author Leonardo Chaves Dutra da Rocha
spellingShingle Leonardo Chaves Dutra da Rocha
Uso de contextos temporais para classificação de documentos
author_sort Leonardo Chaves Dutra da Rocha
title Uso de contextos temporais para classificação de documentos
title_short Uso de contextos temporais para classificação de documentos
title_full Uso de contextos temporais para classificação de documentos
title_fullStr Uso de contextos temporais para classificação de documentos
title_full_unstemmed Uso de contextos temporais para classificação de documentos
title_sort uso de contextos temporais para classificação de documentos
publisher Universidade Federal de Minas Gerais
publishDate 2009
url http://hdl.handle.net/1843/SLSS-7WCQEY
work_keys_str_mv AT leonardochavesdutradarocha usodecontextostemporaisparaclassificacaodedocumentos
_version_ 1718843110572687360
spelling ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-7WCQEY2019-01-21T17:49:58Z Uso de contextos temporais para classificação de documentos Leonardo Chaves Dutra da Rocha Wagner Meira Junior Wagner Meira Junior Marcos Andre Goncalves Marcos Andre Goncalves André Carlos Ponce de L.f. de Carvalho Bianca Zadrozny Alberto Henrique Frade Laender Nivio Ziviani Due to the increasing amount of information being stored and accessible throughthe Web, Automatic Document Classification (ADC) has become an important research topic. ADC usually employs a supervised learning strategy, where we first build a classification model using pre-classified documents and then use it to classify unseen documents. One major challenge for ADC in many scenarios is that the characteristics of the documents and the classes to which they belong may change over time, since new documents are created, new information rise, new terms also are introduced and, consequently, the class definitions may change. Despite the potential quality reduction in the classification models associated with temporal-related changes, most of the current techniques for ADC are applied without taking into account the temporal evolution of the collection of documents. As we will see in this work, an important challenge in building classifiers is to deal with this temporal evolution.The two main hypotheses of this dissertation are: (1) the temporal evolution of the document collections significantly affects the performance of automatic document classifiers, and (2) the dimensions that compose this temporal evolution can be taken into account in order to build better classifiers, which are more efficient and effective. Thus, the goal of this thesis is to characterize, quantitatively and qualitatively, the impact of the temporal evolution of document collections on automatic document classifiers, identifying the dimensions that compose this impact. Moreover, based on this characterization, the goal is to propose alternate strategies that can be used to minimize the challenges associated with the temporal evolution of the collections on automatic document classifiers. The main expected contributions of this thesis are: (1) demonstration and quantification of the temporal evolution and how this affects automatic document classifiers, (2) identification of the effect dimensions that compose the temporal evolution, (3) quantification and qualification of each dimension identified, (4) design of a model to select contexts of the training set that minimize the temporal effects, and (5) the validation of this model using different document collections and classification algorithms. Devido à crescente quantidade de informação que vem sendo armazenada e acessada por meio da Web, Classificação Automática de Documentos (CAD) tem se tornado um importante tópico de pesquisa. CAD normalmente segue uma estratégia de aprendizado em que primeiro se constrói um modelo de classificação utilizando documentos pré-classificados e então aplica-se esse modelo para classificar os demais documentos. Um dos maiores desafios em CAD é que as características dos documentos e das classes às quais eles pertencem mudam ao longo do tempo, uma vez que novos documentos são criados, novas informações surgem, novos termos também são introduzidos e, conseqüentemente, as definições das classes podem mudar. Apesar da potencial redução de qualidade dos modelos de classificação associado com as mudanças relacionadas ao tempo, a maioria das técnicas atuais de CAD não consideram a evolução temporal das coleções de documentos. Assim, conforme veremos nesse trabalho, um importante desafio é construir modelos de classificação que sejam capazes de lidar com essa evolução temporal. As duas principais hipóteses desta tese são: (1) a evolução temporal das coleções de documentos afeta significativamente o desempenho dos classificadores automáticos de texto e (2) as dimensões que compõem essa evolução temporal podem ser exploradas de forma a construir melhores classificadores, mais eficientes e mais efetivos. Dessa forma, o objetivo dessa tese é caracterizar, quantificar e qualificar, o impacto da evolução temporal das coleções de documentos sobre os classificadores automáticos de documentos, identificando as dimensões que compõem esse impacto. Além disso, utilizando o conhecimento adquirido com essa caracterização, o objetivo é propor alternativas para que os problemas causados pela evolução temporal das coleções nos classificadores automáticos de documentos sejam minimizados. As principais contribuições desta tese são: (1) demonstração da existência e quantificação do impacto da evolução temporal em classificação automática de documentos, (2) identificação das dimensões que compõem a evolução temporal, (3) qualificação e quantificação de cada uma das dimensões identificadas, (4) criação de um modelo de seleção de contextos do conjunto de treinamento que minimize os efeitos temporais e (5) a instanciação e validação do modelo utilizando diferentes coleções de documentos e algoritmos de classificação. 2009-02-06 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/1843/SLSS-7WCQEY por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010004P6 - CIÊNCIA DA COMPUTAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG