Summary: | Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2018-11-06T17:18:16Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5) === Made available in DSpace on 2018-11-06T17:18:16Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Giancarlo Rodrigues.pdf: 1835625 bytes, checksum: 84e769e19af35cc8103d542fe655e171 (MD5)
Previous issue date: 2018-09-13 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior === A estimativa do teor de nutrientes do solo por espectroscopia de refletância difusa é feita
através de um modelo de predição, do qual seu desempenho determina a efetividade do
método em realizá-la. Esse modelo é elaborado por técnicas que procuram correlacionar
dados de refletância de uma coleção de amostras ao respectivo valor de referência obtido por
análise química, ambos dispostos como atributos de um conjunto de dados. Não obstante, a
quantidade de atributos desse conjunto é elevada – alta dimensionalidade – e nem todos são
relevantes à predição do nutriente de interesse, logo elaborar um modelo a partir de um
conjunto com essas características envolve uma série de complicações que prejudicam seu
desempenho de predição. Uma das estratégias para contorná-las é manter no conjunto de
dados apenas atributos relevantes à predição do nutriente de interesse, o que é feito através da
Seleção de Subconjunto de Atributos (SSA), porém a maioria dos algoritmos que a executam
não apresentam desempenho satisfatório ao manusear conjuntos de alta dimensionalidade. A
literatura pertinente, por outro lado, constatou que o emprego de algoritmos evolutivos para
SSA em conjuntos com essa característica fornece subconjuntos de qualidade num tempo de
execução aceitável, logo o objetivo desta dissertação foi identificar com o apoio da
metaheurística de Otimização por Enxame de Partículas – PSO – os comprimentos de onda da
região do infravermelho visível e próximo relevantes à predição do teor de alumínio trocável
de amostras de solo da região dos Campos Gerais. Para isso, a SSA foi configurada como um
problema de otimização em que o objetivo foi minimizar o valor de AIC dos modelos
elaborados pelo algoritmo de Regressão Linear Múltipla a partir dos subconjuntos candidatos.
Ademais, sabendo da influência dos parâmetros do algoritmo no resultado final, primeiro
foram investigados os valores ideais para número de iterações, tamanho do enxame e valor de
limiar que proporcionaram a seleção dos melhores subconjuntos, depois estes foram validados
num conjunto de dados independente e o melhor apontado. Nossos resultados sugerem que,
para nosso cenário, 40 iterações, tamanho de enxame 20 e limiar 0,6 fornecem os melhores
subconjuntos, porém o desempenho de predição do melhor modelo identificado ainda é
passível de aprimoramento. A redução proporcionada pelo método adotado foi significativa e
por conta disso essa abordagem é indicada para SSA em conjuntos de dados de
espectroscopia. === The soil nutrient content estimation by diffuse reflectance spectroscopy is done through a
prediction model whose performance determines the method effectiveness when performing
it. This model is elaborated by techniques that try correlating a sample collection’s reflectance
data to the respective reference value obtained through chemical analysis, both arranged as
dataset attributes. Nevertheless, the dataset attributes amount is large – high dimensionality –
and not all of them are relevant to the interest nutrient’s prediction, so elaborating a model
from a dataset with these characteristics involves some complications that impact its
prediction performance. A strategy to circumvent them is keeping only relevant attributes to
the interest nutrient’s prediction, which is done through Feature Subset Selection (FSS), but
the majority of algorithms that perform it do not operate satisfactorily when handling highdimensional
sets. On the other hand, the pertinent literature found that employing
evolutionary algorithms for FSS in high-dimensionality datasets provides quality subsets in an
acceptable execution time, so this master thesis’ objective was to identify with Particle Swarm
Optimization – PSO – metaheuristic support the relevant wavelengths of visible and near
infrared region for exchangeable aluminum content prediction of Campos Gerais region soil
samples. For this, the FSS was configured as an optimization problem which the objective
was to minimize the AIC value of candidate subsets models elaborated by Multiple Linear
Regression algorithm. In addition, knowing the algorithm parameters influence on its final
result, first the ideal values for iterations number, swarm size and threshold value that
provided the selection of best subsets were investigated, then these subsets were validated in
an independent dataset and the best established. Our results suggest that in our scenario 40
iterations, swarm size 20 and threshold 0.6 provided the best subsets, but the prediction
performance of the best model is amenable to improvement. The dimensionality reduction
provided by the adopted method was significant, so this approach is recommended for FSS in
spectroscopy datasets.
|