Comparação da redução de dimensionalidade de dados usando seleção de atributos e conceito de framework: um experimento no domínio de clientes

Os dados de clientes nas empresas são coletados e armazenados em um Banco de Dados e sua administração requer o uso de uma ferramenta computacional. A construção de um modelo de Perfil de Cliente a partir de um banco de dados requer o processo descoberta de conhecimento em uma base de dados. Essa bu...

Full description

Bibliographic Details
Main Author: Macedo, Dayana Carla de
Other Authors: Matos, Simone Nasser
Language:Portuguese
Published: Universidade Tecnológica Federal do Paraná 2013
Subjects:
Online Access:http://repositorio.utfpr.edu.br/jspui/handle/1/602
Description
Summary:Os dados de clientes nas empresas são coletados e armazenados em um Banco de Dados e sua administração requer o uso de uma ferramenta computacional. A construção de um modelo de Perfil de Cliente a partir de um banco de dados requer o processo descoberta de conhecimento em uma base de dados. Essa busca de conhecimento e extração de padrões das bases de dados demanda a utilização de um aplicativo com capacidade analítica para extrair informações que estão implícitas e desconhecidas, porém, potencialmente úteis. Um Banco de Dados por meio do processo de recuperação é capaz de obter informações dos clientes, mas a dificuldade é de que esses sistemas não geram padrões. Estes Bancos de dados contêm uma quantidade expressiva de atributos, os quais podem prejudicar o processo de extração de padrões. Assim, métodos de redução de dimensionalidade são empregados para eliminar atributos redundantes e melhorar o desempenho do processo de aprendizagem tanto na velocidade quanto na taxa de acerto. Também identificam um subconjunto de atributos relevantes e ideal para uma determinada base de dados. Os dois métodos de redução utilizados nesta pesquisa foram: Seleção de Atributos e Conceitos de Framework, até então não aplicados no domínio de Clientes. O Método de Seleção de Atributos tem o intuito de identificar os atributos relevantes para uma tarefa alvo na Mineração de Dados, levando em conta os atributos originais. Já os Conceitos de Framework promovem sucessivos refinamentos nos atributos que podem levar a construção de um modelo mais consistente em um domínio de aplicação. A presente pesquisa aplicou esses dois métodos para comparação destes no domínio Clientes,usando três bases de dados chamadas: Stalog, Customere Insurance. Identificaram-se cinco etapas principais para a comparação dos dois métodos de redução: Preparação das Bases de Dados, Escolha das Bases de Dados, Aplicação dos Métodos de Seleção de Atributos e dos Conceitos de Framework, Execução dos Algoritmos de Classificação e Avaliação dos Resultados. Com a operacionalização das cinco etapas, compostas por vários processos, foi possível comparar os dois métodos e identificar os melhores algoritmos que aumentam a taxa de acerto dos algoritmos classificadores e consequentemente gerar os atributos mais relevantes para uma base de dados, aumentando o desempenho do processo de aprendizagem. Desta forma, com os melhores subconjuntos identificados é possível submetê-los a aplicação de tarefas da Mineração de Dados as quais permitem a construção de regras que ajudam na Gestão do Conhecimento do Perfil do Cliente. === Information related to the Customers at companies are collected and stored in databases. The administration of these data often requires the use of a computational tool. The building of a Customer Profile model from the database requires the process of knowledge discovery in databases. This search of knowledge and extraction patterns of the databases demands the use of a tool with analytics capability to extract information that are implicit, and are previously unknown, but, potentially useful. A data base through of the recovery of date, obtain information of the Customers, but the difficulty is in the fact of these systems do not generate patterns. However, these databases have an expressive amount of data, where redundant information it prejudices this process of patterns extraction. Thus, dimensionality reduction methods are employed to remove redundant information and improve the performance of the learning processes the speed as in the performance of classifier. Furthermore, it identifies a subset of relevant and ideal attributes for a determinate database. The two methods of dimensionality reduction used in this search were: Attribute Selection and Framework Concepts which theretofore were not applied in Customer domain. The Attribute Selection Method has as goal to identify the relevant attributes for a target task, taking into account the original attributes. Considering the Framework Concepts it promotes successive refinements on the attributes where can tale he building of a model more consistent application domain. The present search applied these two methods in order to comparison of these in the Customer domain, using three databases called: Stalog, Customer e Insurance. This paper identified five main steps in order to comparison of the two methods: Preparation of Database, Choice of Database, Application of the Attributes Selection and Framework Concepts Methods, Execution of the Algorithms of the Classification and Evaluation of the Results. With the implementation of theses five steps composed of several processes, it was possible to compare the two methods and identify the best classifiers algorithms and consequently to create the attributes more relevant for a database, increasingthe performance of the learning process. Of this way, with the best subset identified is possible submit them to the application of the Data Mining Tasks which allow the building of rules that help the Knowledge Management of Customer Profile.