Classificação multi-rótulo hierárquica de documentos textuais

=== The amount of information stored in text databases is steadily increasing. As such, demand for automated techniques to organize this data also continues to grow. In this context, academic and industry research has been focused on the study of automatic text classification. Most work on text cla...

Full description

Bibliographic Details
Main Author: Gustavo Henrique Orair
Other Authors: Wagner Meira Junior
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2009
Online Access:http://hdl.handle.net/1843/SLSS-7WMHNG
id ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-7WMHNG
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
description === The amount of information stored in text databases is steadily increasing. As such, demand for automated techniques to organize this data also continues to grow. In this context, academic and industry research has been focused on the study of automatic text classification. Most work on text classification studies the development of techniques in which there are a limited number of classes and dependencies between them is not significant. There are several relevant application scenarios in which these assumptions are not valid. To solve these problems, a new research topic, the Multi-label Hierarchical Classification (HMC) has received more attention but still represents a major challenge for the area. In HMC problems, the set of classes is likely to be much greater and, as such, they are hierarchically structured. Classic methods, in addition to ignore the existing structure knowledge, have their performance degradated if the number of classes is too large or interdependence between the classes exists. In this work we perform an extensive literature study, present a framework targeting development and analysis of HMC algorithms, the MASSIFICA, and propose a lazy classification rule-based algorithm suitable for HMC problems. MASSIFICA was used as benchmark to evaluate performance of a proposed algorithm against well known base classifers based on both fat architecture and structured database (topdown) architectures. We also present results applied to a real application scenario: classification of companies' economic activities. Finally, we discuss challenges and how diferent solutions react to these challenges. We conclude that the new algorithm, despite having a lower performance in the first hierarchical levels, can perform competitively, particularly in the deeper levels of the hierarchy, which in general classes are uncommon and less information is provided. === A quantidade de informações armazenadas em bases de dados de documentos textuais aumenta cada vez mais. Esse crescimento demanda métodos automáticos para organização destes dados. Neste contexto, o estudo da classificação automática de textos tem merecido bastante atenção tanto no meio acadêmico quanto no mercado. A maioria dos trabalhos sobre a classificação estuda o desenvolvimento de técnicas de classificação de textos em que existem um número limitado de classes e a dependência entre as classes não é expressiva. Existem vários cenários de aplicação relevantes em que estas premissas não são válidas. Para solucionar tais problemas, um novo tópico de pesquisa, a Classificação Multi-rótulo Hierárquica (HMC) vem sendo continuamente estudado mas ainda representa um grande desafio para a área. Nos problemas de HMC, o conjunto de classes tende a ser muito maior e estas estão organizadas segundo uma estrutura hierárquica. Os métodos tradicionais, além de ignorar o conhecimento existente nesta estrutura, degeneram o desempenho tanto se o número de classes é expressivo quanto se existe interdependência entre estas classes. Neste trabalho realizamos um extensivo estudo da literatura, desenvolvemos um arcabouço, o MASSIFICA, para o desenvolvimento e análise de métodos e propomos um algoritmo baseado em regras de classificação postergada para o problema de HMC. O Massifica foi utilizado para a avaliação do desempenho do algoritmo proposto e de sistemas de classificação a partir de classificadores base tradicionais baseando-se tanto na arquitetura plana quanto na arquitetura top-down. Apresentamos os resultados em um cenário de aplicação importante de classificação de atividades econômicas de empresas. Por fim, realizamos uma discussão dos principais desafios e como as diferentes soluções resolvem ou falham na presença destes desafios. Concluímos que o novo algoritmo proposto, apesar de apresentar um desempenho inferior nos primeiros níveis da hierarquia, consegue um desempenho competitivo principalmente nos níveis mais profundos da hierarquia, em que, em geral, as classes são raras e existe menor quantidade de informação.
author2 Wagner Meira Junior
author_facet Wagner Meira Junior
Gustavo Henrique Orair
author Gustavo Henrique Orair
spellingShingle Gustavo Henrique Orair
Classificação multi-rótulo hierárquica de documentos textuais
author_sort Gustavo Henrique Orair
title Classificação multi-rótulo hierárquica de documentos textuais
title_short Classificação multi-rótulo hierárquica de documentos textuais
title_full Classificação multi-rótulo hierárquica de documentos textuais
title_fullStr Classificação multi-rótulo hierárquica de documentos textuais
title_full_unstemmed Classificação multi-rótulo hierárquica de documentos textuais
title_sort classificação multi-rótulo hierárquica de documentos textuais
publisher Universidade Federal de Minas Gerais
publishDate 2009
url http://hdl.handle.net/1843/SLSS-7WMHNG
work_keys_str_mv AT gustavohenriqueorair classificacaomultirotulohierarquicadedocumentostextuais
_version_ 1718844024210587648
spelling ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-7WMHNG2019-01-21T17:54:25Z Classificação multi-rótulo hierárquica de documentos textuais Gustavo Henrique Orair Wagner Meira Junior Wagner Meira Junior Marcos Andre Goncalves Marcos Andre Goncalves Leonardo Chaves Dutra Rocha Gisele Lobo Pappa The amount of information stored in text databases is steadily increasing. As such, demand for automated techniques to organize this data also continues to grow. In this context, academic and industry research has been focused on the study of automatic text classification. Most work on text classification studies the development of techniques in which there are a limited number of classes and dependencies between them is not significant. There are several relevant application scenarios in which these assumptions are not valid. To solve these problems, a new research topic, the Multi-label Hierarchical Classification (HMC) has received more attention but still represents a major challenge for the area. In HMC problems, the set of classes is likely to be much greater and, as such, they are hierarchically structured. Classic methods, in addition to ignore the existing structure knowledge, have their performance degradated if the number of classes is too large or interdependence between the classes exists. In this work we perform an extensive literature study, present a framework targeting development and analysis of HMC algorithms, the MASSIFICA, and propose a lazy classification rule-based algorithm suitable for HMC problems. MASSIFICA was used as benchmark to evaluate performance of a proposed algorithm against well known base classifers based on both fat architecture and structured database (topdown) architectures. We also present results applied to a real application scenario: classification of companies' economic activities. Finally, we discuss challenges and how diferent solutions react to these challenges. We conclude that the new algorithm, despite having a lower performance in the first hierarchical levels, can perform competitively, particularly in the deeper levels of the hierarchy, which in general classes are uncommon and less information is provided. A quantidade de informações armazenadas em bases de dados de documentos textuais aumenta cada vez mais. Esse crescimento demanda métodos automáticos para organização destes dados. Neste contexto, o estudo da classificação automática de textos tem merecido bastante atenção tanto no meio acadêmico quanto no mercado. A maioria dos trabalhos sobre a classificação estuda o desenvolvimento de técnicas de classificação de textos em que existem um número limitado de classes e a dependência entre as classes não é expressiva. Existem vários cenários de aplicação relevantes em que estas premissas não são válidas. Para solucionar tais problemas, um novo tópico de pesquisa, a Classificação Multi-rótulo Hierárquica (HMC) vem sendo continuamente estudado mas ainda representa um grande desafio para a área. Nos problemas de HMC, o conjunto de classes tende a ser muito maior e estas estão organizadas segundo uma estrutura hierárquica. Os métodos tradicionais, além de ignorar o conhecimento existente nesta estrutura, degeneram o desempenho tanto se o número de classes é expressivo quanto se existe interdependência entre estas classes. Neste trabalho realizamos um extensivo estudo da literatura, desenvolvemos um arcabouço, o MASSIFICA, para o desenvolvimento e análise de métodos e propomos um algoritmo baseado em regras de classificação postergada para o problema de HMC. O Massifica foi utilizado para a avaliação do desempenho do algoritmo proposto e de sistemas de classificação a partir de classificadores base tradicionais baseando-se tanto na arquitetura plana quanto na arquitetura top-down. Apresentamos os resultados em um cenário de aplicação importante de classificação de atividades econômicas de empresas. Por fim, realizamos uma discussão dos principais desafios e como as diferentes soluções resolvem ou falham na presença destes desafios. Concluímos que o novo algoritmo proposto, apesar de apresentar um desempenho inferior nos primeiros níveis da hierarquia, consegue um desempenho competitivo principalmente nos níveis mais profundos da hierarquia, em que, em geral, as classes são raras e existe menor quantidade de informação. 2009-07-29 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1843/SLSS-7WMHNG por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010004P6 - CIÊNCIA DA COMPUTAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG