Machine learning via dynamical processes on complex networks

Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a...

Full description

Bibliographic Details
Main Author: Cupertino, Thiago Henrique
Other Authors: Liang, Zhao
Format: Others
Language:en
Published: Biblioteca Digitais de Teses e Dissertações da USP 2013
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25032014-154520/
id ndltd-usp.br-oai-teses.usp.br-tde-25032014-154520
record_format oai_dc
collection NDLTD
language en
format Others
sources NDLTD
topic Aprendizado baseado em redes
Aprendizado de máquina
Aprendizado não supervisionado
Aprendizado semissupervisionado
Aprendizado supervisionado
Caminhada aleatória
Complex networks
Consensus time
Controle pontual
Dimensionality reduction
Dynamical processes
Estado estacionário
Forças de interação
Interacting forces
Limiting probabilities
Machine learning
Network-based learning
Plinning control
Probabilidades limite
Processos dinâmicos
Random walk
Redes complexas
Redução de dimensionalidade
Semi-supervised learning
Stationary states
Supervised learning
Tempo de consenso
Unsupervised learning
spellingShingle Aprendizado baseado em redes
Aprendizado de máquina
Aprendizado não supervisionado
Aprendizado semissupervisionado
Aprendizado supervisionado
Caminhada aleatória
Complex networks
Consensus time
Controle pontual
Dimensionality reduction
Dynamical processes
Estado estacionário
Forças de interação
Interacting forces
Limiting probabilities
Machine learning
Network-based learning
Plinning control
Probabilidades limite
Processos dinâmicos
Random walk
Redes complexas
Redução de dimensionalidade
Semi-supervised learning
Stationary states
Supervised learning
Tempo de consenso
Unsupervised learning
Cupertino, Thiago Henrique
Machine learning via dynamical processes on complex networks
description Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to \"learn\" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization, and the low-level relations, via similarity measures, in a general framework. Still in the supervised setting, the modularity and Katz centrality network measures are applied to classify multiple observation sets, and an evolving network construction method is applied to the dimensionality reduction problem. The semi-supervised paradigm is covered by extending the ease of access heuristic to the cases in which just a few labeled data samples and many unlabeled samples are available. A semi-supervised technique based on interacting forces is also proposed, for which we provide parameter heuristics and stability analysis via a Lyapunov function. Finally, an unsupervised network-based technique uses the concepts of pinning control and consensus time from dynamical processes to derive a similarity measure used to cluster data. The data is represented by a connected and sparse network in which nodes are dynamical elements. Simulations on benchmark data sets and comparisons to well-known machine learning techniques are provided for all proposed techniques. Advantages of network data representation and dynamical processes for machine learning are highlighted in all cases === A extração de conhecimento útil a partir de conjuntos de dados é um conceito chave em sistemas de informação modernos. Por conseguinte, a necessidade de técnicas eficientes para extrair o conhecimento desejado vem crescendo ao longo do tempo. Aprendizado de máquina é uma área de pesquisa dedicada ao desenvolvimento de técnicas capazes de permitir que uma máquina \"aprenda\" a partir de conjuntos de dados. Muitas técnicas já foram propostas, mas ainda há questões a serem reveladas especialmente em pesquisas interdisciplinares. Nesta tese, exploramos as vantagens da representação de dados em rede para desenvolver técnicas de aprendizado de máquina baseadas em processos dinâmicos em redes. A representação em rede unifica a estrutura, a dinâmica e as funções do sistema representado e, portanto, é capaz de capturar as relações espaciais, topológicas e funcionais dos conjuntos de dados sob análise. Desenvolvemos técnicas baseadas em rede para os três paradigmas de aprendizado de máquina: supervisionado, semissupervisionado e não supervisionado. O processo dinâmico de passeio aleatório é utilizado para caracterizar o acesso de dados não rotulados às classes de dados configurando uma nova heurística no paradigma supervisionado, a qual chamamos de facilidade de acesso. Também propomos uma técnica de classificação de dados que combina a visão de alto nível dos dados, por meio da caracterização topológica de rede, com relações de baixo nível, por meio de medidas de similaridade, em uma estrutura geral. Ainda no aprendizado supervisionado, as medidas de rede modularidade e centralidade Katz são aplicadas para classificar conjuntos de múltiplas observações, e um método de construção evolutiva de rede é aplicado ao problema de redução de dimensionalidade. O paradigma semissupervisionado é abordado por meio da extensão da heurística de facilidade de acesso para os casos em que apenas algumas amostras de dados rotuladas e muitas amostras não rotuladas estão disponíveis. É também proposta uma técnica semissupervisionada baseada em forças de interação, para a qual fornecemos heurísticas para selecionar parâmetros e uma análise de estabilidade mediante uma função de Lyapunov. Finalmente, uma técnica não supervisionada baseada em rede utiliza os conceitos de controle pontual e tempo de consenso de processos dinâmicos para derivar uma medida de similaridade usada para agrupar dados. Os dados são representados por uma rede conectada e esparsa na qual os vértices são elementos dinâmicos. Simulações com dados de referência e comparações com técnicas de aprendizado de máquina conhecidas são fornecidos para todas as técnicas propostas. As vantagens da representação de dados em rede e de processos dinâmicos para o aprendizado de máquina são evidenciadas em todos os casos
author2 Liang, Zhao
author_facet Liang, Zhao
Cupertino, Thiago Henrique
author Cupertino, Thiago Henrique
author_sort Cupertino, Thiago Henrique
title Machine learning via dynamical processes on complex networks
title_short Machine learning via dynamical processes on complex networks
title_full Machine learning via dynamical processes on complex networks
title_fullStr Machine learning via dynamical processes on complex networks
title_full_unstemmed Machine learning via dynamical processes on complex networks
title_sort machine learning via dynamical processes on complex networks
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2013
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25032014-154520/
work_keys_str_mv AT cupertinothiagohenrique machinelearningviadynamicalprocessesoncomplexnetworks
AT cupertinothiagohenrique aprendizadodemaquinaviaprocessosdinamicosemredescomplexas
_version_ 1719072887661395968
spelling ndltd-usp.br-oai-teses.usp.br-tde-25032014-1545202019-05-09T21:18:42Z Machine learning via dynamical processes on complex networks Aprendizado de máquina via processos dinâmicos em redes complexas Cupertino, Thiago Henrique Aprendizado baseado em redes Aprendizado de máquina Aprendizado não supervisionado Aprendizado semissupervisionado Aprendizado supervisionado Caminhada aleatória Complex networks Consensus time Controle pontual Dimensionality reduction Dynamical processes Estado estacionário Forças de interação Interacting forces Limiting probabilities Machine learning Network-based learning Plinning control Probabilidades limite Processos dinâmicos Random walk Redes complexas Redução de dimensionalidade Semi-supervised learning Stationary states Supervised learning Tempo de consenso Unsupervised learning Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to \"learn\" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization, and the low-level relations, via similarity measures, in a general framework. Still in the supervised setting, the modularity and Katz centrality network measures are applied to classify multiple observation sets, and an evolving network construction method is applied to the dimensionality reduction problem. The semi-supervised paradigm is covered by extending the ease of access heuristic to the cases in which just a few labeled data samples and many unlabeled samples are available. A semi-supervised technique based on interacting forces is also proposed, for which we provide parameter heuristics and stability analysis via a Lyapunov function. Finally, an unsupervised network-based technique uses the concepts of pinning control and consensus time from dynamical processes to derive a similarity measure used to cluster data. The data is represented by a connected and sparse network in which nodes are dynamical elements. Simulations on benchmark data sets and comparisons to well-known machine learning techniques are provided for all proposed techniques. Advantages of network data representation and dynamical processes for machine learning are highlighted in all cases A extração de conhecimento útil a partir de conjuntos de dados é um conceito chave em sistemas de informação modernos. Por conseguinte, a necessidade de técnicas eficientes para extrair o conhecimento desejado vem crescendo ao longo do tempo. Aprendizado de máquina é uma área de pesquisa dedicada ao desenvolvimento de técnicas capazes de permitir que uma máquina \"aprenda\" a partir de conjuntos de dados. Muitas técnicas já foram propostas, mas ainda há questões a serem reveladas especialmente em pesquisas interdisciplinares. Nesta tese, exploramos as vantagens da representação de dados em rede para desenvolver técnicas de aprendizado de máquina baseadas em processos dinâmicos em redes. A representação em rede unifica a estrutura, a dinâmica e as funções do sistema representado e, portanto, é capaz de capturar as relações espaciais, topológicas e funcionais dos conjuntos de dados sob análise. Desenvolvemos técnicas baseadas em rede para os três paradigmas de aprendizado de máquina: supervisionado, semissupervisionado e não supervisionado. O processo dinâmico de passeio aleatório é utilizado para caracterizar o acesso de dados não rotulados às classes de dados configurando uma nova heurística no paradigma supervisionado, a qual chamamos de facilidade de acesso. Também propomos uma técnica de classificação de dados que combina a visão de alto nível dos dados, por meio da caracterização topológica de rede, com relações de baixo nível, por meio de medidas de similaridade, em uma estrutura geral. Ainda no aprendizado supervisionado, as medidas de rede modularidade e centralidade Katz são aplicadas para classificar conjuntos de múltiplas observações, e um método de construção evolutiva de rede é aplicado ao problema de redução de dimensionalidade. O paradigma semissupervisionado é abordado por meio da extensão da heurística de facilidade de acesso para os casos em que apenas algumas amostras de dados rotuladas e muitas amostras não rotuladas estão disponíveis. É também proposta uma técnica semissupervisionada baseada em forças de interação, para a qual fornecemos heurísticas para selecionar parâmetros e uma análise de estabilidade mediante uma função de Lyapunov. Finalmente, uma técnica não supervisionada baseada em rede utiliza os conceitos de controle pontual e tempo de consenso de processos dinâmicos para derivar uma medida de similaridade usada para agrupar dados. Os dados são representados por uma rede conectada e esparsa na qual os vértices são elementos dinâmicos. Simulações com dados de referência e comparações com técnicas de aprendizado de máquina conhecidas são fornecidos para todas as técnicas propostas. As vantagens da representação de dados em rede e de processos dinâmicos para o aprendizado de máquina são evidenciadas em todos os casos Biblioteca Digitais de Teses e Dissertações da USP Liang, Zhao 2013-12-20 Tese de Doutorado application/pdf http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25032014-154520/ en Liberar o conteúdo para acesso público.