Seleção de características apoiada por mineração visual de dados

Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a e...

Full description

Bibliographic Details
Main Author: Botelho, Glenda Michele
Other Authors: Batista Neto, João do Espírito Santo
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2011
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032011-145542/
id ndltd-usp.br-oai-teses.usp.br-tde-29032011-145542
record_format oai_dc
collection NDLTD
language pt
format Others
sources NDLTD
topic Agrupamento
Clustering
Feature selection
Multidimensional data projection
Projeção de dados multidimensionais
Salience selection
Seleção de características
Seleção por saliência
Silhueta
Siulhouette
spellingShingle Agrupamento
Clustering
Feature selection
Multidimensional data projection
Projeção de dados multidimensionais
Salience selection
Seleção de características
Seleção por saliência
Silhueta
Siulhouette
Botelho, Glenda Michele
Seleção de características apoiada por mineração visual de dados
description Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta === Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported
author2 Batista Neto, João do Espírito Santo
author_facet Batista Neto, João do Espírito Santo
Botelho, Glenda Michele
author Botelho, Glenda Michele
author_sort Botelho, Glenda Michele
title Seleção de características apoiada por mineração visual de dados
title_short Seleção de características apoiada por mineração visual de dados
title_full Seleção de características apoiada por mineração visual de dados
title_fullStr Seleção de características apoiada por mineração visual de dados
title_full_unstemmed Seleção de características apoiada por mineração visual de dados
title_sort seleção de características apoiada por mineração visual de dados
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2011
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032011-145542/
work_keys_str_mv AT botelhoglendamichele selecaodecaracteristicasapoiadapormineracaovisualdedados
AT botelhoglendamichele featureselectionsupportedbyvisualdatamining
_version_ 1719076626441961472
spelling ndltd-usp.br-oai-teses.usp.br-tde-29032011-1455422019-05-09T21:53:59Z Seleção de características apoiada por mineração visual de dados Feature selection supported by visual data mining Botelho, Glenda Michele Agrupamento Clustering Feature selection Multidimensional data projection Projeção de dados multidimensionais Salience selection Seleção de características Seleção por saliência Silhueta Siulhouette Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características, configurando um processo de seleção. A qualidade dos subconjuntos de características selecionados é avaliada comparando-se as projeções obtidas para estes subconjuntos com a projeção obtida com conjunto original de dados. Isto é feito quantitativamente, por meio da medida de silhueta, e qualitativamente, pela observação visual da projeção. Além da seleção apoiada por projeção, este trabalho propõe um aprimoramento no seletor de características baseado no cálculo de saliências de uma rede neural Multilayer Perceptron. Esta alteração, que visa selecionar características mais discriminantes e reduzir a quantidade de cálculos para se obter as saliências, utiliza informações provenientes dos agrupamentos de características, de forma a alterar a topologia da rede neural em que se baseia o seletor. Os resultados mostraram que a seleção de características baseada em projeção obtém subconjuntos capazes de gerar novas projeções com qualidade visual satisfatória. Em relação ao seletor por saliência proposto, este também gera subconjuntos responsáveis por altas taxas de classificação de imagens e por novas projeções com bons valores de silhueta Due to the ever growing amount of digital images and, consequently, the quantity and complexity of your features, there has been a need to select the most relevant features so that not only problems caused by high dimensional data sets, correlated features can be minimized, and also the efficiency of the tasks that may employ such features can be enhanced. Many feature selection methods are based on statistical analysis or neural network approaches. This work proposes the addition of visual data mining techniques, particularly multidimensional data projection approaches, to aid the feature selection process. Multidimensional data projection seeks to map a m-dimensional data space onto a p-dimensional space, so that p < m, usually 2 or 3, while preserving distance relationship among data instances. Traditionally, each image is represented by a point, and points projected close to each other indicate clusters of images which share a common properties. However, this work proposes the projection of features. Hence, if we select only a few samples of each cluster of features from the projection, we will end up with a subset of features, revealing a feature selection process. The quality of the feature subset may be assessed by comparing such projections with those obtained with the original data set. This can be achieved either quantitatively, by means of silhouette measures, or qualitatively, by means of visual inspection of the projection. As well as the projection based feature selection, this work proposes an enhancement in the Multilayer Perceptron salience based feature selector. This enhancement, whose aim is to perfect the selection of more discriminant features at the expenses of less computing power, employs information from feature clusters, so as to change the topology of the neural network on which the selector is based. Results have shown that projection-based feature selection produces subsets capable of generating new data projections of satisfactory visual quality. As for the proposed salience-based selector, new subsets with high image classification rates and good silhouette measures have been reported Biblioteca Digitais de Teses e Dissertações da USP Batista Neto, João do Espírito Santo 2011-02-17 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/55/55134/tde-29032011-145542/ pt Liberar o conteúdo para acesso público.