Summary: | Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-04-05T14:16:18Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Shayane_FINAL.pdf: 7778172 bytes, checksum: bef887b2265bc2ffe53c75c2c275d796 (MD5) === Made available in DSpace on 2016-04-05T14:16:18Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Shayane_FINAL.pdf: 7778172 bytes, checksum: bef887b2265bc2ffe53c75c2c275d796 (MD5)
Previous issue date: 2015-08-21 === IF Sertão - PE === Os sistemas de Descoberta de Conhecimentos em Bases de Dados (mais conhecidos
como sistemas KDD) e métodos de Aprendizagem de Máquinas preveem situações,
agrupam e reconhecem padrões, entre outras tarefas que são demandas de um mundo
no qual a maioria dos serviços está sendo oferecido por meio virtual. Apesar dessas
aplicações se preocuparem em gerar informações de fácil interpretação, rápidas e
confiáveis, as extensas bases de dados utilizadas dificultam o alcance de precisão
unida a um baixo custo computacional. Para resolver esse problema, as bases de
dados podem ser reduzidas com o objetivo de diminuir o tempo de processamento e
facilitar o seu armazenamento, bem como, guardar apenas informações suficientes e
relevantes para a extração do conhecimento. Nesse contexto, Métodos de Seleção de
Instâncias (MSIs) têm sido propostos para reduzir e filtrar as bases de dados, selecionando
ou criando novas instâncias que melhor as descrevam. Todavia, aqui se aplica
o Teorema do No Free Lunch, ou seja, a performance dos MSIs varia conforme a base e
nenhum dos métodos sempre sobrepõe seu desempenho aos demais. Por isso, esta
dissertação propõe uma arquitetura para selecionar o “melhor” MSI para uma dada
base de dados (mais adequado emrelação à precisão), chamadaMeta-CISM (Metalearning
for Choosing Instance SelectionMethod). Estratégias de meta-aprendizagem
são utilizadas para treinar um meta-classificador que aprende sobre o relacionamento
entre a taxa de acerto de MSIs e a estrutura das bases. O Meta-CISM utiliza ainda
reamostragem e métodos de seleção de atributos para melhorar o desempenho do
meta-classificador. A proposta foi avaliada com os MSIs: C-pruner, DROP3, IB3, ICF e
ENN-CNN. Os métodos de reamostragem utilizados foram: Bagging e Combination
(método proposto neste trabalho). Foram utilizados como métodos de seleção de
atributos: Relief-F, CFS, Chi Square Feature Evaluation e Consistency-Based Subset
Evaluation. Cinco classificadores contribuíram para rotular as meta-instâncias: C4.5,
PART, MLP-BP, SMO e KNN. Uma MLP-BP treinou o meta-classificador. Os experimentos
foram realizados com dezesseis bases de dados públicas. O método proposto
(Meta-CISM) foi melhor que todos os MSIs estudados, na maioria dos experimentos
realizados. Visto que eficientemente seleciona um dos três melhores MSIs em mais de
85% dos casos, a abordagemé adequada para ser automaticamente utilizada na fase
de pré-processamento das base de dados. === The systems for Knowledge Discovery in Databases (better known as KDD systems)
andMachine Learning methods predict situations, recognize and group (cluster) patterns,
among other tasks that are demands of a world in which the most of the services
is being offered by virtual ways. Although these applications are concerned in generate
fast, reliable and easy to interpret information, extensive databases used for such
applications make difficult achieving accuracy with a low computational cost. To solve
this problem, the databases can be reduced aiming to decrease the processing time
and facilitating its storage, as well as, to save only sufficient and relevant information
for the knowledge extraction. In this context, Instances SelectionMethods (ISMs) have
been proposed to reduce and filter databases, selecting or creating new instances that
best describe them. Nevertheless, No Free Lunch Theorem is applied, that is, the ISMs
performance varies according to the base and none of the methods always overcomes
their performance over others. Therefore, this work proposes an architecture to
select the "best"ISM for a given database (best suited in relation to accuracy), called
Meta-CISM (Meta-learning for Choosing Instance SelectionMethod). Meta-learning
strategies are used to train a meta-classifier that learns about the relationship between
the accuracy rate of ISMs and the bases structures. TheMeta-CISM still uses resampling
and feature selection methods to improve the meta-classifier performance. The
proposal was evaluated with the ISMs: C-pruner, DROP3, IB3, ICF and ENN-CNN.
Resampling methods used were: Bagging and Combination (method proposed in this
work). The Feature SelectionMethods used were: Relief-F, CFS, Chi Square Feature
Evaluation e Consistency-Based Subset Evaluation. Five classifiers contributed to label
the meta-instances: C4.5, PART, MLP-BP, SMO e KNN. The meta-classifier was trained
by a MLP-BP. Experiments were carried with sixteen public databases. The proposed
method (Meta-CISM) was better than all ISMs studied in the most of the experiments
performed. Since that efficiently selects one of the three best ISMs in more than 85%
of cases, the approach is suitable to be automatically used in the pre-processing of the
databases.
|