Seleção de bandas espectrais apoiada pela metaheurística PSO para predição do teor de alumínio trocável de amostras de solo

Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2018-11-06T17:18:16Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) === Made available in DSpace on 2...

Full description

Bibliographic Details
Main Author: Rodrigues, Giancarlo
Other Authors: Campos Júnior, Arion
Language:Portuguese
Published: Universidade Estadual de Ponta Grossa 2018
Subjects:
Online Access:http://tede2.uepg.br/jspui/handle/prefix/2666
Description
Summary:Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2018-11-06T17:18:16Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) === Made available in DSpace on 2018-11-06T17:18:16Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) Previous issue date: 2018-09-13 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior === A estimativa do teor de nutrientes do solo por espectroscopia de refletância difusa é feita através de um modelo de predição, do qual seu desempenho determina a efetividade do método em realizá-la. Esse modelo é elaborado por técnicas que procuram correlacionar dados de refletância de uma coleção de amostras ao respectivo valor de referência obtido por análise química, ambos dispostos como atributos de um conjunto de dados. Não obstante, a quantidade de atributos desse conjunto é elevada – alta dimensionalidade – e nem todos são relevantes à predição do nutriente de interesse, logo elaborar um modelo a partir de um conjunto com essas características envolve uma série de complicações que prejudicam seu desempenho de predição. Uma das estratégias para contorná-las é manter no conjunto de dados apenas atributos relevantes à predição do nutriente de interesse, o que é feito através da Seleção de Subconjunto de Atributos (SSA), porém a maioria dos algoritmos que a executam não apresentam desempenho satisfatório ao manusear conjuntos de alta dimensionalidade. A literatura pertinente, por outro lado, constatou que o emprego de algoritmos evolutivos para SSA em conjuntos com essa característica fornece subconjuntos de qualidade num tempo de execução aceitável, logo o objetivo desta dissertação foi identificar com o apoio da metaheurística de Otimização por Enxame de Partículas – PSO – os comprimentos de onda da região do infravermelho visível e próximo relevantes à predição do teor de alumínio trocável de amostras de solo da região dos Campos Gerais. Para isso, a SSA foi configurada como um problema de otimização em que o objetivo foi minimizar o valor de AIC dos modelos elaborados pelo algoritmo de Regressão Linear Múltipla a partir dos subconjuntos candidatos. Ademais, sabendo da influência dos parâmetros do algoritmo no resultado final, primeiro foram investigados os valores ideais para número de iterações, tamanho do enxame e valor de limiar que proporcionaram a seleção dos melhores subconjuntos, depois estes foram validados num conjunto de dados independente e o melhor apontado. Nossos resultados sugerem que, para nosso cenário, 40 iterações, tamanho de enxame 20 e limiar 0,6 fornecem os melhores subconjuntos, porém o desempenho de predição do melhor modelo identificado ainda é passível de aprimoramento. A redução proporcionada pelo método adotado foi significativa e por conta disso essa abordagem é indicada para SSA em conjuntos de dados de espectroscopia. === The soil nutrient content estimation by diffuse reflectance spectroscopy is done through a prediction model whose performance determines the method effectiveness when performing it. This model is elaborated by techniques that try correlating a sample collection’s reflectance data to the respective reference value obtained through chemical analysis, both arranged as dataset attributes. Nevertheless, the dataset attributes amount is large – high dimensionality – and not all of them are relevant to the interest nutrient’s prediction, so elaborating a model from a dataset with these characteristics involves some complications that impact its prediction performance. A strategy to circumvent them is keeping only relevant attributes to the interest nutrient’s prediction, which is done through Feature Subset Selection (FSS), but the majority of algorithms that perform it do not operate satisfactorily when handling highdimensional sets. On the other hand, the pertinent literature found that employing evolutionary algorithms for FSS in high-dimensionality datasets provides quality subsets in an acceptable execution time, so this master thesis’ objective was to identify with Particle Swarm Optimization – PSO – metaheuristic support the relevant wavelengths of visible and near infrared region for exchangeable aluminum content prediction of Campos Gerais region soil samples. For this, the FSS was configured as an optimization problem which the objective was to minimize the AIC value of candidate subsets models elaborated by Multiple Linear Regression algorithm. In addition, knowing the algorithm parameters influence on its final result, first the ideal values for iterations number, swarm size and threshold value that provided the selection of best subsets were investigated, then these subsets were validated in an independent dataset and the best established. Our results suggest that in our scenario 40 iterations, swarm size 20 and threshold 0.6 provided the best subsets, but the prediction performance of the best model is amenable to improvement. The dimensionality reduction provided by the adopted method was significant, so this approach is recommended for FSS in spectroscopy datasets.