Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados

Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, a...

Full description

Bibliographic Details
Main Author:	José Augusto Andrade Filho
Other Authors:	André Carlos Ponce de Leon Ferreira de Carvalho
Language:	Portuguese
Published:	Universidade de São Paulo 2013
Subjects:	Agrupamento de dados Aprendizado de máquina Seleção de atributos Teoria do caos Chaos theory Clustering Feature selection Machine learning
Online Access:	http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06122013-142810/

id	ndltd-IBICT-oai-teses.usp.br-tde-06122013-142810
record_format	oai_dc
spelling	ndltd-IBICT-oai-teses.usp.br-tde-06122013-1428102019-01-21T22:20:20Z Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados Automatic feature quantification in data clustering tasks José Augusto Andrade Filho André Carlos Ponce de Leon Ferreira de Carvalho Francisco de Assis Tenório de Carvalho Alexandre Cláudio Botazzo Delbem Estevam Rafael Hruschka Júnior Rodrigo Fernandes de Mello Agrupamento de dados Aprendizado de máquina Seleção de atributos Teoria do caos Chaos theory Clustering Feature selection Machine learning Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition 2013-09-17 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06122013-142810/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Ciências da Computação e Matemática Computacional USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP
collection	NDLTD
language	Portuguese
sources	NDLTD
topic	Agrupamento de dados Aprendizado de máquina Seleção de atributos Teoria do caos Chaos theory Clustering Feature selection Machine learning
spellingShingle	Agrupamento de dados Aprendizado de máquina Seleção de atributos Teoria do caos Chaos theory Clustering Feature selection Machine learning José Augusto Andrade Filho Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados
description	Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas, na maioria dos casos analisados, enquanto menos atributos são selecionados, a qualidade da partição dos dados é mantida === Real-world datasets commonly present high dimensional data, what leads to an increased amount of information. However, this does not always imply on an improvement in terms of clustering techniques performance. Furthermore, some features may be correlated or add unexpected noise, reducing the data clustering performance. This problem motivated the development of feature selection techniques, which attempt to find the most relevant subset of features to cluster data. In this work, we focus on the problem of unsupervised feature selection. This is a difficult problem, since there is no class label information. Therefore, there is no guide to measure the quality of the feature subset. The main goal of this work is to define a method to identify the number of features to select (after sorting them based on some criterion). This task is carried out by means of the False Nearest Neighbor, which has its root in the Chaos Theory. Experimental results show that this technique gives an good approximate number of features to select. When compared to other techniques, in most of the analyzed cases, while selecting fewer features, it maintains the quality of the data partition
author2	André Carlos Ponce de Leon Ferreira de Carvalho
author_facet	André Carlos Ponce de Leon Ferreira de Carvalho José Augusto Andrade Filho
author	José Augusto Andrade Filho
author_sort	José Augusto Andrade Filho
title	Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados
title_short	Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados
title_full	Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados
title_fullStr	Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados
title_full_unstemmed	Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados
title_sort	definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados
publisher	Universidade de São Paulo
publishDate	2013
url	http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06122013-142810/
work_keys_str_mv	AT joseaugustoandradefilho definicaoautomaticadaquantidadedeatributosselecionadosemtarefasdeagrupamentodedados AT joseaugustoandradefilho automaticfeaturequantificationindataclusteringtasks
_version_	1718893329649762304

Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados

Similar Items