Classificação supervisionada de padrões utilizando floresta de caminhos otimos

Orientador: Alexandre Xavier Falcão === Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-12T19:04:45Z (GMT). No. of bitstreams: 1 Papa_JoaoPaulo_D.pdf: 853371 bytes, checksum: 47344bdd7e518264c07871b75e5d1fa0 (MD5) Previous issu...

Full description

Bibliographic Details
Main Author: Papa, João Paulo
Other Authors: UNIVERSIDADE ESTADUAL DE CAMPINAS
Format: Others
Language:Portuguese
Published: [s.n.] 2008
Subjects:
Online Access:PAPA, João Paulo. Classificação supervisionada de padrões utilizando floresta de caminhos otimos. 2008. 58 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/276018>. Acesso em: 12 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/276018
id ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-276018
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Reconhecimento de padrões
Processamento de imagens
Inteligência artificial
Pattern recognition
Image processing
Artificial intelligence
spellingShingle Reconhecimento de padrões
Processamento de imagens
Inteligência artificial
Pattern recognition
Image processing
Artificial intelligence
Papa, João Paulo
Classificação supervisionada de padrões utilizando floresta de caminhos otimos
description Orientador: Alexandre Xavier Falcão === Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-12T19:04:45Z (GMT). No. of bitstreams: 1 Papa_JoaoPaulo_D.pdf: 853371 bytes, checksum: 47344bdd7e518264c07871b75e5d1fa0 (MD5) Previous issue date: 2008 === Resumo: Padrões são geralmente representados por vetores de atributos obtidos através de amostras em uma base de dados, a qual pode estar totalmente, parcialmente ou não rotulada. Dependendo da quantidade de informação disponível dessa base de dados, podemos aplicar três tipos de técnicas para identificação desses padrões: supervisionadas, semisupervisionadas ou não-supervisionadas. No presente trabalho, estudamos técnicas supervisionadas, as quais caracterizam-se pelo total conhecimento dos rótulos das amostras da base de dados. Propusemos também um novo método para classificação supervisionada de padrões baseada em Floresta de Caminhos Ótimos (OPF - Optimum-Path Forest), a qual modela o problema de reconhecimento de padrões como sendo um grafo, onde os nós são as amostras e os arcos definidos por uma relação de adjacência. Amostras mais relevantes (protótipos) são identificadas e um processo de competição entre elas é iniciado, as quais tentam oferecer caminhos de custo ótimo para as demais amostras da base de dados. Apresentamos aqui duas abordagens, as quais diferem na relação de adjacência, função de custo de caminho e maneira de identificar os protótipos. A primeira delas utiliza como relação de adjacência o grafo completo e identifica os protótipos nas regiões de fronteira entre as classes, os quais oferecem caminhos de custo ótimo que são computados como sendo o valor do maior peso de arco do caminho entre esses protótipos e as demais amostras da base de dados, sendo o peso do arco entre duas amostras dado pela distância entre seus vetores de características. O algoritmo OPF tenta minimizar esses custos para todas as amostras. A outra abordagem utiliza como relação de adjacência um grafo k-nn e identifica os protótipos como sendo os máximos de uma função de densidade de probabilidade, a qual é computada utilizando os pesos dos arcos. O valor do custo do caminho é dado pelo menor valor de densidade ao longo do caminho. Neste caso, o algoritmo OPF tenta agora maximizar esses custos. Apresentamos também um algoritmo de aprendizado genérico, o qual ensina o classificador através de seus erros em um conjunto de validação, trocando amostras classificadas incorretamente por outras selecionadas através de certas restrições. Esse processo é repetido at'e um critério de erro ser estabelecido. Comparações com os classificadores SVM, ANN-MLP, k-NN e BC foram feitas, tendo o OPF demonstrado ser similar ao SVM, porém bem mais rápido, e superior aos restantes. === Abstract: Patterns are usually represented by feature vectors obtained from samples of a dataset, which can be fully, partially or non labeled. Depending on the amount of available information of these datasets, three kinds of pattern identification techniques can be applied: supervised, semi-supervised or non supervised. In this work, we addressed the supervised ones, which are characterized by the fully knowledge of the labels from the dataset samples, and we also proposed a novel idea for supervised pattern recognition based on Optimum-Path Forest (OPF), which models the pattern recognition problem as a graph, where the nodes are the samples and the arcs are defined by some adjacency relation. The most relevant samples (prototypes) are identified and a competition process between them is started, which try to offer optimum-path costs to the remaining dataset samples. We presented here two approaches, which differ from each other in the adjacency relation, path-cost function and the prototypes identification procedure. The first ones uses as the adjacency relation the complete graph and identify the prototypes in the boundaries of the classes, which offer optimum-path costs that are computed as been the maximum path arc-weight between these prototypes and the other dataset samples, in which the arc-weight is given by the distance between their feature vectors. In this case, the OPF algorithm tries to minimize these costs for each sample of the dataset. The other approach uses as the adjacency relation a k-nn graph and identifies the prototypes as the maxima of a probability density function, which is computed using the arc-weigths. The path-cost value is given by the lowest density value among it. The OPF algorithm now tries to maximize these costs. We also presented a generic learning algorithm, which tries to teach a classifier through its erros in a validation set, replacing the misclassified samples by other selected using some constraints. This process is repeated until an error criterion is satisfied. Comparisons with SVM, ANN-MLP, k-NN and BC classifiers were also performed, being the OPF similar to SVM, but much faster, and superior to the remaining classifiers. === Doutorado === Metodologia e Tecnicas da Computação === Doutor em Ciência da Computação
author2 UNIVERSIDADE ESTADUAL DE CAMPINAS
author_facet UNIVERSIDADE ESTADUAL DE CAMPINAS
Papa, João Paulo
author Papa, João Paulo
author_sort Papa, João Paulo
title Classificação supervisionada de padrões utilizando floresta de caminhos otimos
title_short Classificação supervisionada de padrões utilizando floresta de caminhos otimos
title_full Classificação supervisionada de padrões utilizando floresta de caminhos otimos
title_fullStr Classificação supervisionada de padrões utilizando floresta de caminhos otimos
title_full_unstemmed Classificação supervisionada de padrões utilizando floresta de caminhos otimos
title_sort classificação supervisionada de padrões utilizando floresta de caminhos otimos
publisher [s.n.]
publishDate 2008
url PAPA, João Paulo. Classificação supervisionada de padrões utilizando floresta de caminhos otimos. 2008. 58 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/276018>. Acesso em: 12 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/276018
work_keys_str_mv AT papajoaopaulo classificacaosupervisionadadepadroesutilizandoflorestadecaminhosotimos
AT papajoaopaulo supervisedpatternclassificationusingoptimumpathforest
_version_ 1718880140500402176
spelling ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-2760182019-01-21T21:02:26Z Classificação supervisionada de padrões utilizando floresta de caminhos otimos Supervised pattern classification using optimum path forest Papa, João Paulo UNIVERSIDADE ESTADUAL DE CAMPINAS Falcão, Alexandre Xavier, 1966- Junior, Roberto Hirata Fonseca, Leila Maria Garcia Pedrini, Hélio Wainer, Jacques Reconhecimento de padrões Processamento de imagens Inteligência artificial Pattern recognition Image processing Artificial intelligence Orientador: Alexandre Xavier Falcão Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Made available in DSpace on 2018-08-12T19:04:45Z (GMT). No. of bitstreams: 1 Papa_JoaoPaulo_D.pdf: 853371 bytes, checksum: 47344bdd7e518264c07871b75e5d1fa0 (MD5) Previous issue date: 2008 Resumo: Padrões são geralmente representados por vetores de atributos obtidos através de amostras em uma base de dados, a qual pode estar totalmente, parcialmente ou não rotulada. Dependendo da quantidade de informação disponível dessa base de dados, podemos aplicar três tipos de técnicas para identificação desses padrões: supervisionadas, semisupervisionadas ou não-supervisionadas. No presente trabalho, estudamos técnicas supervisionadas, as quais caracterizam-se pelo total conhecimento dos rótulos das amostras da base de dados. Propusemos também um novo método para classificação supervisionada de padrões baseada em Floresta de Caminhos Ótimos (OPF - Optimum-Path Forest), a qual modela o problema de reconhecimento de padrões como sendo um grafo, onde os nós são as amostras e os arcos definidos por uma relação de adjacência. Amostras mais relevantes (protótipos) são identificadas e um processo de competição entre elas é iniciado, as quais tentam oferecer caminhos de custo ótimo para as demais amostras da base de dados. Apresentamos aqui duas abordagens, as quais diferem na relação de adjacência, função de custo de caminho e maneira de identificar os protótipos. A primeira delas utiliza como relação de adjacência o grafo completo e identifica os protótipos nas regiões de fronteira entre as classes, os quais oferecem caminhos de custo ótimo que são computados como sendo o valor do maior peso de arco do caminho entre esses protótipos e as demais amostras da base de dados, sendo o peso do arco entre duas amostras dado pela distância entre seus vetores de características. O algoritmo OPF tenta minimizar esses custos para todas as amostras. A outra abordagem utiliza como relação de adjacência um grafo k-nn e identifica os protótipos como sendo os máximos de uma função de densidade de probabilidade, a qual é computada utilizando os pesos dos arcos. O valor do custo do caminho é dado pelo menor valor de densidade ao longo do caminho. Neste caso, o algoritmo OPF tenta agora maximizar esses custos. Apresentamos também um algoritmo de aprendizado genérico, o qual ensina o classificador através de seus erros em um conjunto de validação, trocando amostras classificadas incorretamente por outras selecionadas através de certas restrições. Esse processo é repetido at'e um critério de erro ser estabelecido. Comparações com os classificadores SVM, ANN-MLP, k-NN e BC foram feitas, tendo o OPF demonstrado ser similar ao SVM, porém bem mais rápido, e superior aos restantes. Abstract: Patterns are usually represented by feature vectors obtained from samples of a dataset, which can be fully, partially or non labeled. Depending on the amount of available information of these datasets, three kinds of pattern identification techniques can be applied: supervised, semi-supervised or non supervised. In this work, we addressed the supervised ones, which are characterized by the fully knowledge of the labels from the dataset samples, and we also proposed a novel idea for supervised pattern recognition based on Optimum-Path Forest (OPF), which models the pattern recognition problem as a graph, where the nodes are the samples and the arcs are defined by some adjacency relation. The most relevant samples (prototypes) are identified and a competition process between them is started, which try to offer optimum-path costs to the remaining dataset samples. We presented here two approaches, which differ from each other in the adjacency relation, path-cost function and the prototypes identification procedure. The first ones uses as the adjacency relation the complete graph and identify the prototypes in the boundaries of the classes, which offer optimum-path costs that are computed as been the maximum path arc-weight between these prototypes and the other dataset samples, in which the arc-weight is given by the distance between their feature vectors. In this case, the OPF algorithm tries to minimize these costs for each sample of the dataset. The other approach uses as the adjacency relation a k-nn graph and identifies the prototypes as the maxima of a probability density function, which is computed using the arc-weigths. The path-cost value is given by the lowest density value among it. The OPF algorithm now tries to maximize these costs. We also presented a generic learning algorithm, which tries to teach a classifier through its erros in a validation set, replacing the misclassified samples by other selected using some constraints. This process is repeated until an error criterion is satisfied. Comparisons with SVM, ANN-MLP, k-NN and BC classifiers were also performed, being the OPF similar to SVM, but much faster, and superior to the remaining classifiers. Doutorado Metodologia e Tecnicas da Computação Doutor em Ciência da Computação 2008 2018-08-12T19:04:45Z 2018-08-12T19:04:45Z info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis PAPA, João Paulo. Classificação supervisionada de padrões utilizando floresta de caminhos otimos. 2008. 58 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/276018>. Acesso em: 12 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/276018 por info:eu-repo/semantics/openAccess 58 f. : il. application/octet-stream [s.n.] Universidade Estadual de Campinas. Instituto de Computação Programa de Pós-Graduação em Ciência da Computação reponame:Repositório Institucional da Unicamp instname:Universidade Estadual de Campinas instacron:UNICAMP