Uma abordagem para a escolha do melhor método de seleção de instâncias usando meta-aprendizagem

Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-04-05T14:16:18Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Shayane_FINAL.pdf: 7778172 bytes, checksum: bef887b2265bc2ffe53c75c2c275d796 (MD5) === Made available in DSpa...

Full description

Bibliographic Details
Main Author: MOURA, Shayane de Oliveira
Other Authors: http://lattes.cnpq.br/8577312109146354
Language:Portuguese
Published: Universidade Federal de Pernambuco 2016
Subjects:
Online Access:https://repositorio.ufpe.br/handle/123456789/16311
Description
Summary:Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-04-05T14:16:18Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Shayane_FINAL.pdf: 7778172 bytes, checksum: bef887b2265bc2ffe53c75c2c275d796 (MD5) === Made available in DSpace on 2016-04-05T14:16:18Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Shayane_FINAL.pdf: 7778172 bytes, checksum: bef887b2265bc2ffe53c75c2c275d796 (MD5) Previous issue date: 2015-08-21 === IF Sertão - PE === Os sistemas de Descoberta de Conhecimentos em Bases de Dados (mais conhecidos como sistemas KDD) e métodos de Aprendizagem de Máquinas preveem situações, agrupam e reconhecem padrões, entre outras tarefas que são demandas de um mundo no qual a maioria dos serviços está sendo oferecido por meio virtual. Apesar dessas aplicações se preocuparem em gerar informações de fácil interpretação, rápidas e confiáveis, as extensas bases de dados utilizadas dificultam o alcance de precisão unida a um baixo custo computacional. Para resolver esse problema, as bases de dados podem ser reduzidas com o objetivo de diminuir o tempo de processamento e facilitar o seu armazenamento, bem como, guardar apenas informações suficientes e relevantes para a extração do conhecimento. Nesse contexto, Métodos de Seleção de Instâncias (MSIs) têm sido propostos para reduzir e filtrar as bases de dados, selecionando ou criando novas instâncias que melhor as descrevam. Todavia, aqui se aplica o Teorema do No Free Lunch, ou seja, a performance dos MSIs varia conforme a base e nenhum dos métodos sempre sobrepõe seu desempenho aos demais. Por isso, esta dissertação propõe uma arquitetura para selecionar o “melhor” MSI para uma dada base de dados (mais adequado emrelação à precisão), chamadaMeta-CISM (Metalearning for Choosing Instance SelectionMethod). Estratégias de meta-aprendizagem são utilizadas para treinar um meta-classificador que aprende sobre o relacionamento entre a taxa de acerto de MSIs e a estrutura das bases. O Meta-CISM utiliza ainda reamostragem e métodos de seleção de atributos para melhorar o desempenho do meta-classificador. A proposta foi avaliada com os MSIs: C-pruner, DROP3, IB3, ICF e ENN-CNN. Os métodos de reamostragem utilizados foram: Bagging e Combination (método proposto neste trabalho). Foram utilizados como métodos de seleção de atributos: Relief-F, CFS, Chi Square Feature Evaluation e Consistency-Based Subset Evaluation. Cinco classificadores contribuíram para rotular as meta-instâncias: C4.5, PART, MLP-BP, SMO e KNN. Uma MLP-BP treinou o meta-classificador. Os experimentos foram realizados com dezesseis bases de dados públicas. O método proposto (Meta-CISM) foi melhor que todos os MSIs estudados, na maioria dos experimentos realizados. Visto que eficientemente seleciona um dos três melhores MSIs em mais de 85% dos casos, a abordagemé adequada para ser automaticamente utilizada na fase de pré-processamento das base de dados. === The systems for Knowledge Discovery in Databases (better known as KDD systems) andMachine Learning methods predict situations, recognize and group (cluster) patterns, among other tasks that are demands of a world in which the most of the services is being offered by virtual ways. Although these applications are concerned in generate fast, reliable and easy to interpret information, extensive databases used for such applications make difficult achieving accuracy with a low computational cost. To solve this problem, the databases can be reduced aiming to decrease the processing time and facilitating its storage, as well as, to save only sufficient and relevant information for the knowledge extraction. In this context, Instances SelectionMethods (ISMs) have been proposed to reduce and filter databases, selecting or creating new instances that best describe them. Nevertheless, No Free Lunch Theorem is applied, that is, the ISMs performance varies according to the base and none of the methods always overcomes their performance over others. Therefore, this work proposes an architecture to select the "best"ISM for a given database (best suited in relation to accuracy), called Meta-CISM (Meta-learning for Choosing Instance SelectionMethod). Meta-learning strategies are used to train a meta-classifier that learns about the relationship between the accuracy rate of ISMs and the bases structures. TheMeta-CISM still uses resampling and feature selection methods to improve the meta-classifier performance. The proposal was evaluated with the ISMs: C-pruner, DROP3, IB3, ICF and ENN-CNN. Resampling methods used were: Bagging and Combination (method proposed in this work). The Feature SelectionMethods used were: Relief-F, CFS, Chi Square Feature Evaluation e Consistency-Based Subset Evaluation. Five classifiers contributed to label the meta-instances: C4.5, PART, MLP-BP, SMO e KNN. The meta-classifier was trained by a MLP-BP. Experiments were carried with sixteen public databases. The proposed method (Meta-CISM) was better than all ISMs studied in the most of the experiments performed. Since that efficiently selects one of the three best ISMs in more than 85% of cases, the approach is suitable to be automatically used in the pre-processing of the databases.