A PCA and SPCA based procedure to variable selection in agriculture

A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos e...

Full description

Bibliographic Details
Main Authors: Juscelino Izidoro de Oliveira Jr, José Carlos Ferreira da Rocha, Alaine Margarete Guimarães, Adriel Ferreira da Fonseca
Format: Article
Language:English
Published: Universidade de Passo Fundo (UPF) 2015-04-01
Series:Revista Brasileira de Computação Aplicada
Subjects:
Online Access:http://www.upf.br/seer/index.php/rbca/article/view/3727
id doaj-f2f37a9cff07477fb2125988e72c058d
record_format Article
spelling doaj-f2f37a9cff07477fb2125988e72c058d2020-11-25T01:56:40ZengUniversidade de Passo Fundo (UPF)Revista Brasileira de Computação Aplicada2176-66492015-04-0171304110.5335/rbca.2015.37273185A PCA and SPCA based procedure to variable selection in agricultureJuscelino Izidoro de Oliveira Jr0José Carlos Ferreira da Rocha1Alaine Margarete Guimarães2Adriel Ferreira da Fonseca3Fundação ABC para Assistência e Divulgação Técnica AgropecuáriaUniversidade Estadual de Ponta GrosaUniversidade Estadual de Ponta GrossaUniversidade Estadual de Ponta GrossaA mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos em que há overfitting. Uma forma de reduzir a dimensionalidade dos dados e a complexidade da amostra é selecionar os atributos que são relevantes para a descrição do fenômeno de interesse. Este trabalho apresenta um procedimento que combina métodos de busca e análise de componentes principais supervisionada e não supervisionada para selecionar variáveis. O procedimento remove as variáveis irrelevantes ou com pouca influência sobre a variação dos dados e avalia o impacto da seleção sobre tarefas de regressão e classificação. Sempre que possível, o número de variáveis selecionadas é aquele que atende aos requerimentos da complexidade da amostra. O procedimento foi testado na seleção de variáveis para indução de modelos lineares multivariados e redes neurais artificiais mediante uma base de dados de agricultura de precisão. O procedimento proposto permite uma solução de custo-benefício entre a redução da dimensionalidade e a acurácia do modelo.http://www.upf.br/seer/index.php/rbca/article/view/3727Mineração de dados agrícolasseleção de variáveiscomplexidade da amostra
collection DOAJ
language English
format Article
sources DOAJ
author Juscelino Izidoro de Oliveira Jr
José Carlos Ferreira da Rocha
Alaine Margarete Guimarães
Adriel Ferreira da Fonseca
spellingShingle Juscelino Izidoro de Oliveira Jr
José Carlos Ferreira da Rocha
Alaine Margarete Guimarães
Adriel Ferreira da Fonseca
A PCA and SPCA based procedure to variable selection in agriculture
Revista Brasileira de Computação Aplicada
Mineração de dados agrícolas
seleção de variáveis
complexidade da amostra
author_facet Juscelino Izidoro de Oliveira Jr
José Carlos Ferreira da Rocha
Alaine Margarete Guimarães
Adriel Ferreira da Fonseca
author_sort Juscelino Izidoro de Oliveira Jr
title A PCA and SPCA based procedure to variable selection in agriculture
title_short A PCA and SPCA based procedure to variable selection in agriculture
title_full A PCA and SPCA based procedure to variable selection in agriculture
title_fullStr A PCA and SPCA based procedure to variable selection in agriculture
title_full_unstemmed A PCA and SPCA based procedure to variable selection in agriculture
title_sort pca and spca based procedure to variable selection in agriculture
publisher Universidade de Passo Fundo (UPF)
series Revista Brasileira de Computação Aplicada
issn 2176-6649
publishDate 2015-04-01
description A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos em que há overfitting. Uma forma de reduzir a dimensionalidade dos dados e a complexidade da amostra é selecionar os atributos que são relevantes para a descrição do fenômeno de interesse. Este trabalho apresenta um procedimento que combina métodos de busca e análise de componentes principais supervisionada e não supervisionada para selecionar variáveis. O procedimento remove as variáveis irrelevantes ou com pouca influência sobre a variação dos dados e avalia o impacto da seleção sobre tarefas de regressão e classificação. Sempre que possível, o número de variáveis selecionadas é aquele que atende aos requerimentos da complexidade da amostra. O procedimento foi testado na seleção de variáveis para indução de modelos lineares multivariados e redes neurais artificiais mediante uma base de dados de agricultura de precisão. O procedimento proposto permite uma solução de custo-benefício entre a redução da dimensionalidade e a acurácia do modelo.
topic Mineração de dados agrícolas
seleção de variáveis
complexidade da amostra
url http://www.upf.br/seer/index.php/rbca/article/view/3727
work_keys_str_mv AT juscelinoizidorodeoliveirajr apcaandspcabasedproceduretovariableselectioninagriculture
AT josecarlosferreiradarocha apcaandspcabasedproceduretovariableselectioninagriculture
AT alainemargareteguimaraes apcaandspcabasedproceduretovariableselectioninagriculture
AT adrielferreiradafonseca apcaandspcabasedproceduretovariableselectioninagriculture
AT juscelinoizidorodeoliveirajr pcaandspcabasedproceduretovariableselectioninagriculture
AT josecarlosferreiradarocha pcaandspcabasedproceduretovariableselectioninagriculture
AT alainemargareteguimaraes pcaandspcabasedproceduretovariableselectioninagriculture
AT adrielferreiradafonseca pcaandspcabasedproceduretovariableselectioninagriculture
_version_ 1724978726912917504