CONSTRUCTIVE REGRESSION ON IMPLICIT MANIFOLDS

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === Métodos de aprendizagem de variedades assumem que um conjunto de dados de alta dimensão possuem uma representação de baixa dimensionalidade. Tais métodos podem ser empregados para simplificar os dados e obter um melhor entendimento da estrutura...

Full description

Bibliographic Details
Main Author: MARINA SEQUEIROS DIAS
Other Authors: HELIO CORTES VIEIRA LOPES
Language:Portuguese
Published: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO 2012
Online Access:http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=21402@1
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=21402@2
Description
Summary:PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === Métodos de aprendizagem de variedades assumem que um conjunto de dados de alta dimensão possuem uma representação de baixa dimensionalidade. Tais métodos podem ser empregados para simplificar os dados e obter um melhor entendimento da estrutura da qual os dados fazem parte. Nesta tese, utiliza-se o método de aprendizagem de variedades chamado votação por tensores para obter informação da dimensionalidade intrínseca dos dados, bem como estimativas confiáveis da orientação dos vetores normais e tangentes em cada ponto da variedade. Em seguida, propõe-se um método construtivo para aproximar a variedade implícita e realizar uma regressão. O método e chamado de Regressão Construtiva em Variedades Implícitas (RCVI). Com os resultados obtidos no método de votação por tensores, busca-se uma aproximação da variedade através de uma participação do domínio, controlada pelo erro, baseada em malhas 2n-adicas (n denota o numero de características dos dados de entrada) e em arvore binaria com funções de transição suave. A construção consiste em dividir os dados em vários subconjuntos, de maneira a aproximar cada subconjunto de dados com funções implícitas simples. Nesse trabalho empregamos funções polinomiais multivariadas. A forma global pode ser obtida combinando essas estruturas simples. A cada dado de entrada esta associada uma saída e a partir de uma boa aproximação da variedade, utilizando esses dados de entrada, busca-se obter uma boa estimativa da saída. Dessa forma, os critérios de parada da subdivisão do domínio incluem uma precisão, definida pelo usuário, na aproximação da variedade, bem como um critério envolvendo a dispersão das saídas em cada subdomínio. Para avaliar o desempenho do método proposto, realiza-se uma regressão com dados reais, compara-se com métodos de aprendizagem supervisionada e efetua-se ainda uma aplicação na área de dados de poucos de petróleo. === Manifold Learning Methods assume that a high-dimensional data set has a low-dimensional representation. These methods can be employed in order to simplify data, and to obtain a better understanding of the structure of which the data belong. In this thesis, a tensor voting approach is employed as a technique of manifold learning, to obtain information about the intrinsic dimensionality of the data and reliable estimates of the orientation of normal and tangent vectors at each data point in the manifold. Next, a constructive method is proposed to approximate an implicit manifold and perform a regression. The method is called Constructive Regression on Implicit Manifold (RCVI). With the obtained results, search is made in order to obtain a manifold approximation, which consists in a domain partition, error-controlled, based on 2n-trees (n means the number of features of the input data set) and binary partition trees with smooth transition functions. The construction implies in partition the data set into several subsets in order to approximate each subset with a simple implicit function. In this work, it is used multivariate polynomial functions. The global shape can be obtained by combining these simple structures. Each input data set is associated with an output data, then, from a good manifold approximation using those input data set, it is hoped that occurs a good estimate of the output data. Therefore, the stop criteria of the domain subdivision include a precision, deffined by the user, on the manifold approximation, as well as a criterion that involves the output dispersion on each subdomain. To evaluate the performance of the proposed method, a regression on real data is computed, and compared with some supervised learning algorithms and also an application on well data is performed.