HIBRID NEURO-FUZZY-GENETIC SYSTEM FOR AUTOMATIC DATA MINING
CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Esta dissertação apresenta a proposta e o desenvolvimento de um sistema de mineração de dados inteiramente automático. O objetivo principal é criar um sistema que seja capaz de realizar a extração de informações obscuras a partir d...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2004
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=5303@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=5303@2 |
Summary: | CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Esta dissertação apresenta a proposta e o desenvolvimento
de um sistema
de mineração de dados inteiramente automático. O objetivo
principal é criar um
sistema que seja capaz de realizar a extração de
informações obscuras a partir
de bases de dados complexas, sem exigir a presença de um
especialista técnico
para configurá-lo. O sistema híbrido neuro-fuzzy
hierárquico com
particionamento binário (NFHB) vem apresentando excelentes
resultados em
tarefas de classificação de padrões e previsão, além de
possuir importantes
características não encontradas em outros sistemas
similares, entre elas:
aprendizado automático de sua estrutura; capacidade de
receber um número
maior de entradas abrangendo um maior número de aplicações;
e geração de
regras lingüísticas como produto de seu treinamento.
Entretanto, este modelo
ainda necessita de uma complexa parametrização inicial
antes de seu
treinamento, impedindo que o processo seja automático em
sua totalidade. O
novo modelo proposto busca otimizar a parametrização do
sistema NFHB
utilizando a técnica de coevolução genética, criando assim
um novo sistema de
mineração de dados completamente automático. O trabalho foi
realizado em
quatro partes principais: avaliação de sistemas existentes
utilizados na
mineração de dados; estudo do sistema NFHB e a determinação
de seus
principais parâmetros; desenvolvimento do sistema híbrido
neuro-fuzzy-genético
automático para mineração de dados; e o estudo de casos.
No estudo dos sistemas existentes para mineração de dados
buscou-se
encontrar algum modelo que apresentasse bons resultados e
ainda fosse
passível de automatização. Várias técnicas foram estudadas,
entre elas:
Métodos Estatísticos, Árvores de Decisão, Associação de
Regras, Algoritmos
Genéticos, Redes Neurais Artificiais, Sistemas Fuzzy e
Sistemas Neuro-Fuzzy.
O sistema NFHB foi escolhido como sistema de inferência e
extração de regras
para a realização da mineração de dados. Deste modo, este
modelo foi estudado
e seus parâmetros mais importantes foram determinados. Além
disso, técnicas
de seleção de variáveis de entradas foram investigadas para
servirem como
opções para o modelo. Ao final, foi obtido um conjunto de
parâmetros que deve
ser automaticamente determinado para a completa
configuração deste sistema. Um modelo coevolutivo genético
hierárquico foi criado para realizar com
excelência a tarefa de otimização do sistema NFHB. Desta
forma, foi modelada
uma arquitetura hierárquica de Algoritmos Genéticos (AG s),
onde os mesmos
realizam tarefas de otimização complementares. Nesta etapa,
também foram
determinados os melhores operadores genéticos, a
parametrização dos AG s, a
melhor representação dos cromossomas e as funções de
avaliação. O melhor
conjunto de parâmetros encontrado é utilizado na
configuração do NFHB,
tornando o processo inteiramente automático.
No estudo de casos, vários testes foram realizados em bases
de dados
reais e do tipo benchmark. Para problemas de previsão,
foram utilizadas séries
de carga de energia elétrica de seis empresas: Cerj, Copel,
Eletropaulo, Cemig,
Furnas e Light. Na área de classificação de padrões, foram
utilizadas bases
conhecidas de vários artigos da área como Glass Data, Wine
Data, Bupa Liver
Disorders e Pima Indian Diabetes. Após a realização dos
testes, foi feita uma
comparação com os resultados obtidos por vários algoritmos
e pelo NFHB
original, porém com parâmetros determinados por um
especialista.
Os testes mostraram que o modelo criado obteve resultados
bastante
satisfatórios, pois foi possível, com um processo
completamente automático,
obter taxas de erro semelhantes às obtidas por um
especialista, e em alguns
casos taxas menores. Desta forma, um usuário do sistema,
sem qualquer
conhecimento técnico sobre os modelos utilizados, pode
utilizá-lo para realizar min === This dissertation presents the proposal and the development
of a totally
automatic data mining system. The main objective is to
create a system that is
capable of extracting obscure information from complex
databases, without
demanding the presence of a technical specialist to
configure it. The Hierarchical
Neuro-Fuzzy Binary Space Partitioning model (NFHB) has
produced excellent
results in pattern classification and time series
forecasting tasks. Additionally, it
provides important features that are not present in other
similar systems, such
as: automatic learning of its structure; ability to deal
with a larger number of input
variables, thus increasing the range of possible
applications; and generation of
linguistic rules as a result of its training process.
However, this model depends on
a complex configuration process before the training is
performed, hindering to
achieve a totally automatic system. The model proposed in
this Dissertation tries
to optimize the NFHB system parameters by using the genetic
coevolution
technique, thus creating a new automatic data mining
system. This work
consisted of four main parts: evaluation of existing
systems used in data mining;
study of the NFHB system and definition of its main
parameters; development of
the automatic hybrid neuro-fuzzy-genetic system for data
mining; and case
studies.
In the study of existing data mining systems, the aim was
to find a suitable
model that could yield good results and still be automated.
Several techniques
have been studied, among them: Statistical methods,
Decision Trees, Rules
Association, Genetic Algorithms, Artificial Neural
Networks, Fuzzy and Neuro-
Fuzzy Systems. The NFHB System was chosen for inference and
rule extraction
in the data mining process. In this way, this model was
carefully studied and its
most important parameters were determined. Moreover, input
variable selection
techniques were investigated, to be used with the proposed
model. Finally, a set
of parameters was defined, which must be determined
automatically for the
complete system configuration.
A hierarchical coevolutive genetic model was created to
execute the
system optimization task with efficiency. Therefore, a
hierarchical architecture of genetic algorithms (GAs) was
created, where the GAs execute complementary
optimization tasks. In this stage, the best genetic
operators, the GAs
configuration, the chromossomes representation, and
evaluation functions were
also determined. The best set of parameters found was used
in the NFHB
configuration, making the process entirely automatic.
In the case studies, various tests were performed with
benchmark
databases. For forecasting problems, six electric load
series were used: Cerj,
Copel, Eletropaulo, Cemig, Furnas and Light. In the pattern
classification area,
some well known databases were used, namely Glass Data,
Wine Data, Bupa
Liver Disorders and Pima Indian Diabetes. After the tests
were carried out, a
comparison was made with known models and with the original
NFHB System,
configured by a specialist.
The tests have demonstrated that the proposed model
generates
satisfactory results, producing, with an automatic process,
similar errors to the
ones obtained with a specialist configuration, and, in some
cases, even better
results can be obtained. Therefore, a user without any
technical knowledge of the
system, can use it to perform data mining, extracting
information and knowledge
that can help him/her in decision taking processes, which
is the final objective of
a Knowledge Data Discovery process. |
---|