Summary: | A vasta quantidade de informações disponível sobre qualquer área de conhecimento torna cada vez mais difícil selecionar e analisar informações específicas e relevantes sobre determinado assunto. Com isso, faz-se necessário o aprimoramento de técnicas automáticas para recuperação, análise e extração de conhecimento em conjuntos de dados, destacando-se dessa forma as pesquisas em Aprendizado de Máquina e em Mineração de Dados. Em aprendizado de máquina e em mineração, a grande maioria das técnicas utiliza-se de uma representação proposicional dos dados, que considera apenas caracter características individuais dos objetos descritos em uma tabela atributo-valor. Porém, existem aplicações nas quais além da descrição dos objetos também estão disponíveis informações sobre relações existentes entre eles. Esses domínios podem ser representados via grafos, nos quais vértices representam objetos e arestas relações entre objetos, possibilitando a aplicação de técnicas relacionais aos dados. Conceitos de Redes Complexas (RC) podem ser utilizados neste contexto. RC é um campo de pesquisa recente e ativo, que estuda o comportamento de diversos sistemas reais, modelados via grafos. Entretanto, ainda há poucos trabalhos que utilizam Redes Complexas em aprendizado de máquina ou mineração de dados. Este projeto apresenta uma proposta de utilização do formalismo de redes complexas e grafos para descoberta de padrões no contexto de aprendizado supervisionado. O formalismo de grafos permite representar as relações entre objetos e características particulares do domínio, permitindo agregar informações estruturais das relações à descoberta de conhecimento. Especificamente, neste trabalho desenvolve-se uma representação relacional baseada em grafos construídos a partir de relações de similaridade entre objetos. Baseado nesta representação são propostas abordagens de classificação relacional. Também é proposto um modelo de rede denominado K-Associados. Propriedades da rede K-Associados foram investigadas. Os resultados experimentais demonstram um grande potencial para classificação utilizando os algoritmos de classificação e de formação de redes propostos === The vast amount of information available on any area of knowledge makes selecting and analyzing information on a specific topic increasingly dificult. Therefore, it is necessary the improvement of techniques for automatic information retrieval, analysis, and knowledge extraction from data sets. In this scenario, especial attention must be addressed for Machine Learning and Data Mining researches. In machine learning and data mining, most of the techniques uses a propositional representation, which considers only the characteristics of the objects described into an attribute-value table. However, there are domains where, in addition to the description of the objects, it is also available information about relationship between them. Such domains can be represented by graphs where vertices represent objects and edges relationship between objects, enabling the application of techniques for relational data. Concepts of complex networks (CN) can be useful in this context. CN is a recent and active research field, which studies the behavior of many real systems modeled by graphs. However, there is little work in machine learning or data mining applying CN concepts. This project presents a proposal to use the formalism of complex networks and graphs to discover patterns in the context of supervised learning. The formalism of graphs can represent relationships between objects and characteristics of the domain, allowing adding structural knowledge embedded in a graph into the data mining process. Specifically, this work develops a relational representation based on graphs constructed taking into consideration the similarity between objects. Based on this representation, relational classification approaches are proposed. It is also proposed a network referred to K-Associate Network. Properties of the K-Associate Network were investigated. The experimental results show great potential for the proposed classification and network construction algorithms
|