Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS
A presente dissertação propõe métodos para seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS (Partial Least Squares). Partindo-se de uma revisão da bibliografia sobre PLS e índices de importância das variáveis, sugere-se um método, denominado Eliminação...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
2013
|
Subjects: | |
Online Access: | http://hdl.handle.net/10183/75913 |
id |
ndltd-IBICT-oai-lume.ufrgs.br-10183-75913 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-lume.ufrgs.br-10183-759132018-10-21T17:01:35Z Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS Selecting the most relevant predictive variables based on variable importance indices and PLS regression Zimmer, Juliano Anzanello, Michel José Controle estatístico de processo Modelos de regressão Análise multivariada Variable selection PLS regression Variable importance indices A presente dissertação propõe métodos para seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS (Partial Least Squares). Partindo-se de uma revisão da bibliografia sobre PLS e índices de importância das variáveis, sugere-se um método, denominado Eliminação Backward (EB), para seleção de variáveis a partir da eliminação sistemática de variáveis de acordo com a ordem definida por índices de importância das variáveis. Um novo índice de importância de variáveis, proposto com base nos parâmetros da regressão PLS, tem seu desempenho avaliado frente a outros índices reportados pela literatura. Duas variações do método EB são propostas e testadas através de simulação: (i) o método EBM (Eliminação backward por mínimos), que identifica o conjunto que maximiza o indicador de acurácia preditiva sem considerar o percentual de variáveis retidas, e (ii) o método EBDE (Eliminação backward por distância euclidiana), que seleciona o conjunto de variáveis responsável pela mínima distância euclidiana entre os pontos do perfil gerado pela eliminação das variáveis e um ponto ideal hipotético definido pelo usuário. A aplicação dos três métodos em quatro bancos de dados reais aponta o EBDE como recomendável, visto que retém, em média, apenas 13% das variáveis originais e eleva a acurácia de predição em 32% em relação à utilização de todas as variáveis. This dissertation presents new methods for predictive variable selection based on variable importance indices and PLS regression. The novel method, namely Backward Elimination (BE), selects the most important variables by eliminating process variables according to their importance described by the variable importance indices. A new variable importance index is proposed, and compared to previous indices for that purpose. We then offer two modifications on the BE method: (i) the EBM method, which selects the subset of variables yielding the maximum predictive accuracy (i.e., the minimum residual index), and (ii) the EBDE, which selects the subset leading to the minimum Euclidian distance between the points generated by variable removal and a hypothetical ideal point defined by the user. When applied to four manufacturing data sets, the recommended method, EBDE, retains average 13% of the original variables and increases the prediction accuracy in average 32% compared to using all the variables. 2013-07-17T01:49:34Z 2012 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/75913 000891304 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Controle estatístico de processo Modelos de regressão Análise multivariada Variable selection PLS regression Variable importance indices |
spellingShingle |
Controle estatístico de processo Modelos de regressão Análise multivariada Variable selection PLS regression Variable importance indices Zimmer, Juliano Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS |
description |
A presente dissertação propõe métodos para seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS (Partial Least Squares). Partindo-se de uma revisão da bibliografia sobre PLS e índices de importância das variáveis, sugere-se um método, denominado Eliminação Backward (EB), para seleção de variáveis a partir da eliminação sistemática de variáveis de acordo com a ordem definida por índices de importância das variáveis. Um novo índice de importância de variáveis, proposto com base nos parâmetros da regressão PLS, tem seu desempenho avaliado frente a outros índices reportados pela literatura. Duas variações do método EB são propostas e testadas através de simulação: (i) o método EBM (Eliminação backward por mínimos), que identifica o conjunto que maximiza o indicador de acurácia preditiva sem considerar o percentual de variáveis retidas, e (ii) o método EBDE (Eliminação backward por distância euclidiana), que seleciona o conjunto de variáveis responsável pela mínima distância euclidiana entre os pontos do perfil gerado pela eliminação das variáveis e um ponto ideal hipotético definido pelo usuário. A aplicação dos três métodos em quatro bancos de dados reais aponta o EBDE como recomendável, visto que retém, em média, apenas 13% das variáveis originais e eleva a acurácia de predição em 32% em relação à utilização de todas as variáveis. === This dissertation presents new methods for predictive variable selection based on variable importance indices and PLS regression. The novel method, namely Backward Elimination (BE), selects the most important variables by eliminating process variables according to their importance described by the variable importance indices. A new variable importance index is proposed, and compared to previous indices for that purpose. We then offer two modifications on the BE method: (i) the EBM method, which selects the subset of variables yielding the maximum predictive accuracy (i.e., the minimum residual index), and (ii) the EBDE, which selects the subset leading to the minimum Euclidian distance between the points generated by variable removal and a hypothetical ideal point defined by the user. When applied to four manufacturing data sets, the recommended method, EBDE, retains average 13% of the original variables and increases the prediction accuracy in average 32% compared to using all the variables. |
author2 |
Anzanello, Michel José |
author_facet |
Anzanello, Michel José Zimmer, Juliano |
author |
Zimmer, Juliano |
author_sort |
Zimmer, Juliano |
title |
Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS |
title_short |
Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS |
title_full |
Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS |
title_fullStr |
Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS |
title_full_unstemmed |
Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS |
title_sort |
seleção de variáveis preditivas com base em índices de importância das variáveis e regressão pls |
publishDate |
2013 |
url |
http://hdl.handle.net/10183/75913 |
work_keys_str_mv |
AT zimmerjuliano selecaodevariaveispreditivascombaseemindicesdeimportanciadasvariaveiseregressaopls AT zimmerjuliano selectingthemostrelevantpredictivevariablesbasedonvariableimportanceindicesandplsregression |
_version_ |
1718781535654510592 |