Summary: | Submitted by Aelson Maciera (aelsoncm@terra.com.br) on 2017-08-16T20:00:07Z
No. of bitstreams: 1
DissDMBS.pdf: 821487 bytes, checksum: 497fc9b102478d03042a1c3d10a45c19 (MD5) === Approved for entry into archive by Ronildo Prado (bco.producao.intelectual@gmail.com) on 2018-01-29T18:10:09Z (GMT) No. of bitstreams: 1
DissDMBS.pdf: 821487 bytes, checksum: 497fc9b102478d03042a1c3d10a45c19 (MD5) === Approved for entry into archive by Ronildo Prado (bco.producao.intelectual@gmail.com) on 2018-01-29T18:10:17Z (GMT) No. of bitstreams: 1
DissDMBS.pdf: 821487 bytes, checksum: 497fc9b102478d03042a1c3d10a45c19 (MD5) === Made available in DSpace on 2018-01-29T18:14:39Z (GMT). No. of bitstreams: 1
DissDMBS.pdf: 821487 bytes, checksum: 497fc9b102478d03042a1c3d10a45c19 (MD5)
Previous issue date: 2017-06-13 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) === Regression models for binary response variables are very common in several areas of knowledge.
The most used model in these situations is the logistic regression model, which assumes that the
logit of the probability of a certain event is a linear function of the predictors variables. When
this assumption is not reasonable, it is common to make some changes in the model, such as:
transformation of predictor variables and/or add quadratic or cubic terms to the model. The problem
with this approach is that it hinders parameter interpretation, and in some areas it is fundamental to
interpret the parameters. Thus, a common approach is to categorize the quantitative covariates. This
work aims to propose two new classes of categorization methods for continuous variables in binary
regression models. The first class of methods is univariate and seeks to maximize the association
between the response variable and the categorized covariate using measures of association for
qualitative variables. The second class of methods is multivariate and incorporates the predictor
variables correlation structure through the joint categorization of all covariates. To evaluate the
performance, we applied the proposed methods and four existing categorization methods in 3 credit
scoring databases and in two simulated cenarios. The results in the real databases suggest that the
proposed univariate class of categorization methods performs better than the existing methods when
we compare the predictive power of the logistic regression model. The results in the simulated
databases suggest that both proposed classes perform better than the existing methods. Regarding
computational performance, the multivariate method is inferior and the univariate method is superior
to the existing methods. === Modelos de regressão para variáveis resposta binárias são muito comuns em diversas áreas do
conhecimento. O modelo mais utilizado nessas situações é o modelo de regressão logística, que
assume que o logito da probabilidade de ocorrência de um dos valores da variável resposta é uma
função linear das variáveis preditoras. Quando essa suposição não é razoável, algumas possíveis
alternativas são: realizar transformação das variáveis preditoras e/ou inserir termos quadráticos ou
cúbicos no modelo. O problema dessa abordagem é que ela dificulta bastante a interpretação dos
parâmetros do modelo e, em algumas áreas, é fundamental que eles sejam interpretáveis. Assim,
uma abordagem muitas vezes utilizada é a categorização das variáveis preditoras quantitativas do
modelo. Sendo assim, este trabalho tem como objetivo propor duas novas classes de métodos de
categorização de variáveis contínuas em modelos de regressão para variáveis resposta binárias. A
primeira classe de métodos é univariada e busca maximizar a associação entre a variável resposta e
a covariável categorizada utilizando medidas de associação para variáveis qualitativas. Já a classe
de métodos multivariada tenta incorporar a estrutura de dependência entre as covariáveis do modelo
através da categorização conjunta de todas as variáveis preditoras. Para avaliar o desempenho,
aplicamos as classes de métodos propostas e quatro métodos de categorização existentes em 3 bases
de dados relacionadas à área de risco de crédito e a dois cenários de dados simulados. Os resultados
nas bases reais sugerem que a classe univariada proposta têm um desempenho superior aos métodos
existentes quando comparamos o poder preditivo do modelo de regressão logística. Já os resultados
nas bases de dados simuladas sugerem que ambas as classes propostas possuem um desempenho
superior aos métodos existentes. Em relação ao desempenho computacional, o método multivariado
mostrou-se inferior e o univariado é superior aos métodos existentes.
|