Summary: | === This work presents a comparative analysis of techniques for extracting rules from databases through Formal Concept Analysis (FCA). The rules considered here are sets of dependencies among attributes of databases. Specifically, the dependencies are: implications, functional dependencies, association rules and classification rules. Those rules are mainly sourcered in databases theory in which they have a fundamental role as a way of helping with the process of decisions' taken case of implications, association rules and classification rules and with normalizing logical models case of functional dependencies. The FCA has a mathematical structure especially adequate for helping in data analysis. Such analysis is done through concept lattices that represent data in a hierachical manner. So, the objective of this work is the analysis and the comparison of methods that use FCA for discovering dependencies among attributes of databases. It has been analyzed ten representative algorithm for extracting the four types of rules mentioned. From those algorithms, four are used in the extraction of functional dependencies and implications. They are: Next Closure, Find Implications, Impec and Aprem-IR. The last six algorithms are useful for extracting association and classification rules. Four algorithms have been analyzed for the extraction of association rules: AClose, Frequent Next Neighbours, Titanic and Galicia. Finally, two algorithms have been analyzed for the extraction of classification rules: GRAND and Rulearner. The algorithms have been implemented and submitted to real and synthetic databases. The databases have been chosen with two criteria: database's size (number of entries) and density. Those criteria try to eliminate a deficiency detected in the literature in choosing databases for algorithms' evaluation. One noted that those algorithms have characteristic behaviors for different databases. In this work, it is suggested the adequacy of each algorithm to databases with different densities and sizes. === Este trabalho apresenta uma análise comparativa de técnicas para a extração de regras de bancos de dados através da Análise Formal de Conceitos (AFC). As regras consideradas aqui são conjuntos de dependências entre atributos de bancos de dados. Especificamente, as dependências são: implicações, dependências funcionais, regras de associação e regras de classificação. Essas regras são originárias, principalmente, da teoria dos bancos de dados, na qual desempenham papel fundamental para auxiliar processos de tomada de decisão caso das implicações, regras de associação e classificação e na normalização de modelos lógicos caso das dependências funcionais. A AFC, por sua vez, possui uma estrutura matemática especialmente adequada para auxiliar na análise de dados. Essa análise é feita através de reticulados conceituais que representam dados de forma hierárquica. Sendo assim, o objetivo do trabalho é analisar e comparar métodos que utilizem a AFC para a descoberta de dependências entre atributos em bancos de dados. São analisados dez algoritmos representativos para extração dos quatro tipos de regras mencionados. Desses algoritmos, quatro são usados na identificação de dependências funcionais e implicações. São eles: Next Closure, Find Implications, Impec e Aprem-IR. Os seis algoritmos restantes são úteis na identificação de regras de associação e de classificação. Foram analisados quatro algoritmos para extrair regras de associação: AClose, Frequent Next Neighbours, Titanic e Galicia. Finalmente, foram analisados dois algoritmos para identificar regras de classificação: GRAND e Rulearner.Os algoritmos foram implementados e submetidos a bancos de dados reais e sintéticos.Os bancos de dados foram escolhidos e gerados segundo dois critérios: tamanho da base de dados (número de entradas) e densidade. Esses dois critérios tentam suprir a deficiência constatada na literatura no que diz respeito à escolha de bancos de dados para avaliação de algoritmos. Constatou-se que os algoritmos apresentam comportamentos característicos para diferentes bancos de dados. Neste trabalho, é sugerida a adequação de cada algoritmo aos bancos de dados com diferentes densidades e tamanhos.
|