Efeitos temporais em classificação de textos: caracterização e engenharia de dados
=== The Automatic Document Classification (ADC) has become an important research topic due to the increasing amount of information available on the Internet. ADC usually follows a standard supervised learning strategy, in which we first build a classification model using pre-classified documents an...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Universidade Federal de Minas Gerais
2008
|
Online Access: | http://hdl.handle.net/1843/SLSS-8CEG6C |
id |
ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-8CEG6C |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
description |
=== The Automatic Document Classification (ADC) has become an important research topic
due to the increasing amount of information available on the Internet. ADC usually
follows a standard supervised learning strategy, in which we first build a classification
model using pre-classified documents and then this model is used to classify new documents.
One major challenge for ADC in many scenarios is that the characteristics of
the documents and the classes to which they belong may change over time. However,
most of the current techniques for ADC are applied without taking into account the
temporal evolution of the collection of documents.
In this work, we characterize the temporal evolution in ADC in details, based on
an analysis methodology for the temporal effects, and we propose data engineering
strategies to deal with these effects. In the analysis methodology, we show that the
temporal evolution may be explained by three factors: class distribution, term distribution
and class similarity. We employ experimental methodologies and metrics capable
of isolating each of these factors in order to analyze them separately. Moreover, we
present some data engineering strategies that incorporate the temporal aspects in the
databases, through processes of data filtering and transformation. While data filtering
consists of selecting the documents that will be part of the training set, data transformation
is a process in which the terms of the documents in the database are changed,
assigning them a new label that will somehow incorporate the temporal aspects.
Using an exhaustive filtering strategy, we showed that, with only 69% of the ACM
database, we are able to have an accuracy of 89.76%, and with only 25% of the MedLine,
an accuracy of 87.57%, which means gains of up to 20% in the accuracy with much
smaller training sets than the entire database. However, we know that this strategy
is not feasible in real scenarios. On the other hand, with our data transformation
strategies, we obtained a gain of up to 6.5% in the accuracy, and these strategies may
me applied in real scenarios and even extended to the use of other algorithms. === A Classificação Automática de Documentos (CAD) tem se tornado um tópico de pesquisa
importante devido à crescente quantidade de informação disponível na Internet. A CAD normalmente segue uma estratégia de aprendizado supervisionada, em que, primeiramente, um modelo de classificação é construído utilizando documentos pré-classificados e, em seguida, esse modelo é utilizado para classificar novos documentos. Um grande desafio para a CAD, em diversos cenários, é que as características dos documentos e das classes às quais eles pertencem podem mudar ao longo do tempo. Entretanto, a maioria das técnicas recentes para a CAD sãoaplicadas sem considerar a evolução temporal da coleção de documentos.
Neste trabalho, caracterizamos detalhadamente a evolução temporal na CAD, com base em uma metodologia de análise dos efeitos temporais, e propomos estratégias de engenharia de dados para
tratar esses efeitos. Na metodologia de análise, foi mostrado que a evolução temporal pode ser
explicada por três fatores: distribuição de classes, distribuição de termos e similaridade de classes.
Aplicamos também metodologias experimentais e métricas capazes de isolar cada um desses fatores
para que eles sejam analisados separadamente. Além disso, apresentamos estratégias de engenharia
de dados que incorporam os aspectos temporais nas bases, através dos processos de filtragem e transformação dos dados. Enquanto a filtragem de dados envolve apenas uma seleção dos documentos que devem compor o conjunto de treino, a transformação dos dados envolve um processo de modificação
dos termos dos documentos da base de dados, atribuindo a eles um novo rótulo de forma a incorporar
os aspectos temporais.
Através da estratégia exaustiva de filtragem, mostramos que, utilizando apenas 69% da base de
dados da ACM, foi possível obter uma acurácia de 89,76%, e com apenas 25% da coleção MedLine,
uma acurácia de 87,57%. Isso significa um ganho de até 20% na eficácia do classificador, com conjuntos de treino muito menores do que a base de dados inteira. Entretanto, sabemos que utilizar tal estratégia em cenários reais é inviável. Por outro lado, com nossas estratégias de transformação de dados, obtivemos um ganho de até 6,5% na acurácia do processo de classificação, sendo essas estratégias aplicáveis em cenários reais e extensíveis à utilização de outros algoritmos. |
author2 |
Wagner Meira Junior |
author_facet |
Wagner Meira Junior Renata Braga Araujo |
author |
Renata Braga Araujo |
spellingShingle |
Renata Braga Araujo Efeitos temporais em classificação de textos: caracterização e engenharia de dados |
author_sort |
Renata Braga Araujo |
title |
Efeitos temporais em classificação de textos: caracterização e engenharia de dados |
title_short |
Efeitos temporais em classificação de textos: caracterização e engenharia de dados |
title_full |
Efeitos temporais em classificação de textos: caracterização e engenharia de dados |
title_fullStr |
Efeitos temporais em classificação de textos: caracterização e engenharia de dados |
title_full_unstemmed |
Efeitos temporais em classificação de textos: caracterização e engenharia de dados |
title_sort |
efeitos temporais em classificação de textos: caracterização e engenharia de dados |
publisher |
Universidade Federal de Minas Gerais |
publishDate |
2008 |
url |
http://hdl.handle.net/1843/SLSS-8CEG6C |
work_keys_str_mv |
AT renatabragaaraujo efeitostemporaisemclassificacaodetextoscaracterizacaoeengenhariadedados |
_version_ |
1718844937117630464 |
spelling |
ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-8CEG6C2019-01-21T17:57:22Z Efeitos temporais em classificação de textos: caracterização e engenharia de dados Renata Braga Araujo Wagner Meira Junior Marcos Andre Goncalves Gisele Lobo Pappa Alberto F. de Souza The Automatic Document Classification (ADC) has become an important research topic due to the increasing amount of information available on the Internet. ADC usually follows a standard supervised learning strategy, in which we first build a classification model using pre-classified documents and then this model is used to classify new documents. One major challenge for ADC in many scenarios is that the characteristics of the documents and the classes to which they belong may change over time. However, most of the current techniques for ADC are applied without taking into account the temporal evolution of the collection of documents. In this work, we characterize the temporal evolution in ADC in details, based on an analysis methodology for the temporal effects, and we propose data engineering strategies to deal with these effects. In the analysis methodology, we show that the temporal evolution may be explained by three factors: class distribution, term distribution and class similarity. We employ experimental methodologies and metrics capable of isolating each of these factors in order to analyze them separately. Moreover, we present some data engineering strategies that incorporate the temporal aspects in the databases, through processes of data filtering and transformation. While data filtering consists of selecting the documents that will be part of the training set, data transformation is a process in which the terms of the documents in the database are changed, assigning them a new label that will somehow incorporate the temporal aspects. Using an exhaustive filtering strategy, we showed that, with only 69% of the ACM database, we are able to have an accuracy of 89.76%, and with only 25% of the MedLine, an accuracy of 87.57%, which means gains of up to 20% in the accuracy with much smaller training sets than the entire database. However, we know that this strategy is not feasible in real scenarios. On the other hand, with our data transformation strategies, we obtained a gain of up to 6.5% in the accuracy, and these strategies may me applied in real scenarios and even extended to the use of other algorithms. A Classificação Automática de Documentos (CAD) tem se tornado um tópico de pesquisa importante devido à crescente quantidade de informação disponível na Internet. A CAD normalmente segue uma estratégia de aprendizado supervisionada, em que, primeiramente, um modelo de classificação é construído utilizando documentos pré-classificados e, em seguida, esse modelo é utilizado para classificar novos documentos. Um grande desafio para a CAD, em diversos cenários, é que as características dos documentos e das classes às quais eles pertencem podem mudar ao longo do tempo. Entretanto, a maioria das técnicas recentes para a CAD sãoaplicadas sem considerar a evolução temporal da coleção de documentos. Neste trabalho, caracterizamos detalhadamente a evolução temporal na CAD, com base em uma metodologia de análise dos efeitos temporais, e propomos estratégias de engenharia de dados para tratar esses efeitos. Na metodologia de análise, foi mostrado que a evolução temporal pode ser explicada por três fatores: distribuição de classes, distribuição de termos e similaridade de classes. Aplicamos também metodologias experimentais e métricas capazes de isolar cada um desses fatores para que eles sejam analisados separadamente. Além disso, apresentamos estratégias de engenharia de dados que incorporam os aspectos temporais nas bases, através dos processos de filtragem e transformação dos dados. Enquanto a filtragem de dados envolve apenas uma seleção dos documentos que devem compor o conjunto de treino, a transformação dos dados envolve um processo de modificação dos termos dos documentos da base de dados, atribuindo a eles um novo rótulo de forma a incorporar os aspectos temporais. Através da estratégia exaustiva de filtragem, mostramos que, utilizando apenas 69% da base de dados da ACM, foi possível obter uma acurácia de 89,76%, e com apenas 25% da coleção MedLine, uma acurácia de 87,57%. Isso significa um ganho de até 20% na eficácia do classificador, com conjuntos de treino muito menores do que a base de dados inteira. Entretanto, sabemos que utilizar tal estratégia em cenários reais é inviável. Por outro lado, com nossas estratégias de transformação de dados, obtivemos um ganho de até 6,5% na acurácia do processo de classificação, sendo essas estratégias aplicáveis em cenários reais e extensíveis à utilização de outros algoritmos. 2008-12-04 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1843/SLSS-8CEG6C por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010004P6 - CIÊNCIA DA COMPUTAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG |