A PCA and SPCA based procedure to variable selection in agriculture
A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos e...
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Universidade de Passo Fundo (UPF)
2015-04-01
|
Series: | Revista Brasileira de Computação Aplicada |
Subjects: | |
Online Access: | http://www.upf.br/seer/index.php/rbca/article/view/3727 |
id |
doaj-f2f37a9cff07477fb2125988e72c058d |
---|---|
record_format |
Article |
spelling |
doaj-f2f37a9cff07477fb2125988e72c058d2020-11-25T01:56:40ZengUniversidade de Passo Fundo (UPF)Revista Brasileira de Computação Aplicada2176-66492015-04-0171304110.5335/rbca.2015.37273185A PCA and SPCA based procedure to variable selection in agricultureJuscelino Izidoro de Oliveira Jr0José Carlos Ferreira da Rocha1Alaine Margarete Guimarães2Adriel Ferreira da Fonseca3Fundação ABC para Assistência e Divulgação Técnica AgropecuáriaUniversidade Estadual de Ponta GrosaUniversidade Estadual de Ponta GrossaUniversidade Estadual de Ponta GrossaA mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos em que há overfitting. Uma forma de reduzir a dimensionalidade dos dados e a complexidade da amostra é selecionar os atributos que são relevantes para a descrição do fenômeno de interesse. Este trabalho apresenta um procedimento que combina métodos de busca e análise de componentes principais supervisionada e não supervisionada para selecionar variáveis. O procedimento remove as variáveis irrelevantes ou com pouca influência sobre a variação dos dados e avalia o impacto da seleção sobre tarefas de regressão e classificação. Sempre que possível, o número de variáveis selecionadas é aquele que atende aos requerimentos da complexidade da amostra. O procedimento foi testado na seleção de variáveis para indução de modelos lineares multivariados e redes neurais artificiais mediante uma base de dados de agricultura de precisão. O procedimento proposto permite uma solução de custo-benefício entre a redução da dimensionalidade e a acurácia do modelo.http://www.upf.br/seer/index.php/rbca/article/view/3727Mineração de dados agrícolasseleção de variáveiscomplexidade da amostra |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Juscelino Izidoro de Oliveira Jr José Carlos Ferreira da Rocha Alaine Margarete Guimarães Adriel Ferreira da Fonseca |
spellingShingle |
Juscelino Izidoro de Oliveira Jr José Carlos Ferreira da Rocha Alaine Margarete Guimarães Adriel Ferreira da Fonseca A PCA and SPCA based procedure to variable selection in agriculture Revista Brasileira de Computação Aplicada Mineração de dados agrícolas seleção de variáveis complexidade da amostra |
author_facet |
Juscelino Izidoro de Oliveira Jr José Carlos Ferreira da Rocha Alaine Margarete Guimarães Adriel Ferreira da Fonseca |
author_sort |
Juscelino Izidoro de Oliveira Jr |
title |
A PCA and SPCA based procedure to variable selection in agriculture |
title_short |
A PCA and SPCA based procedure to variable selection in agriculture |
title_full |
A PCA and SPCA based procedure to variable selection in agriculture |
title_fullStr |
A PCA and SPCA based procedure to variable selection in agriculture |
title_full_unstemmed |
A PCA and SPCA based procedure to variable selection in agriculture |
title_sort |
pca and spca based procedure to variable selection in agriculture |
publisher |
Universidade de Passo Fundo (UPF) |
series |
Revista Brasileira de Computação Aplicada |
issn |
2176-6649 |
publishDate |
2015-04-01 |
description |
A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos em que há overfitting. Uma forma de reduzir a dimensionalidade dos dados e a complexidade da amostra é selecionar os atributos que são relevantes para a descrição do fenômeno de interesse. Este trabalho apresenta um procedimento que combina métodos de busca e análise de componentes principais supervisionada e não supervisionada para selecionar variáveis. O procedimento remove as variáveis irrelevantes ou com pouca influência sobre a variação dos dados e avalia o impacto da seleção sobre tarefas de regressão e classificação. Sempre que possível, o número de variáveis selecionadas é aquele que atende aos requerimentos da complexidade da amostra. O procedimento foi testado na seleção de variáveis para indução de modelos lineares multivariados e redes neurais artificiais mediante uma base de dados de agricultura de precisão. O procedimento proposto permite uma solução de custo-benefício entre a redução da dimensionalidade e a acurácia do modelo. |
topic |
Mineração de dados agrícolas seleção de variáveis complexidade da amostra |
url |
http://www.upf.br/seer/index.php/rbca/article/view/3727 |
work_keys_str_mv |
AT juscelinoizidorodeoliveirajr apcaandspcabasedproceduretovariableselectioninagriculture AT josecarlosferreiradarocha apcaandspcabasedproceduretovariableselectioninagriculture AT alainemargareteguimaraes apcaandspcabasedproceduretovariableselectioninagriculture AT adrielferreiradafonseca apcaandspcabasedproceduretovariableselectioninagriculture AT juscelinoizidorodeoliveirajr pcaandspcabasedproceduretovariableselectioninagriculture AT josecarlosferreiradarocha pcaandspcabasedproceduretovariableselectioninagriculture AT alainemargareteguimaraes pcaandspcabasedproceduretovariableselectioninagriculture AT adrielferreiradafonseca pcaandspcabasedproceduretovariableselectioninagriculture |
_version_ |
1724978726912917504 |