A PCA and SPCA based procedure to variable selection in agriculture

A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos e...

Full description

Bibliographic Details
Main Authors: Juscelino Izidoro de Oliveira Jr, José Carlos Ferreira da Rocha, Alaine Margarete Guimarães, Adriel Ferreira da Fonseca
Format: Article
Language:English
Published: Universidade de Passo Fundo (UPF) 2015-04-01
Series:Revista Brasileira de Computação Aplicada
Subjects:
Online Access:http://www.upf.br/seer/index.php/rbca/article/view/3727
Description
Summary:A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos em que há overfitting. Uma forma de reduzir a dimensionalidade dos dados e a complexidade da amostra é selecionar os atributos que são relevantes para a descrição do fenômeno de interesse. Este trabalho apresenta um procedimento que combina métodos de busca e análise de componentes principais supervisionada e não supervisionada para selecionar variáveis. O procedimento remove as variáveis irrelevantes ou com pouca influência sobre a variação dos dados e avalia o impacto da seleção sobre tarefas de regressão e classificação. Sempre que possível, o número de variáveis selecionadas é aquele que atende aos requerimentos da complexidade da amostra. O procedimento foi testado na seleção de variáveis para indução de modelos lineares multivariados e redes neurais artificiais mediante uma base de dados de agricultura de precisão. O procedimento proposto permite uma solução de custo-benefício entre a redução da dimensionalidade e a acurácia do modelo.
ISSN:2176-6649