Two-Stage Logistic Regression Models for Improved Credit Scoring
This thesis has investigated two-stage regularized logistic regressions applied on the credit scoring problem. Credit scoring refers to the practice of estimating the probability that a customer will default if given credit. The data was supplied by Klarna AB, and contains a larger number of observa...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för datavetenskap och kommunikation (CSC)
2015
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-160551 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-160551 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1605512018-01-12T05:09:48ZTwo-Stage Logistic Regression Models for Improved Credit ScoringengTvå-stegs logistiska regressioner för förbättrad credit scoringLund, AntonKTH, Skolan för datavetenskap och kommunikation (CSC)2015Machine LearningCredit ScoringTwo-stage Logistic RegressionsComputer SciencesDatavetenskap (datalogi)This thesis has investigated two-stage regularized logistic regressions applied on the credit scoring problem. Credit scoring refers to the practice of estimating the probability that a customer will default if given credit. The data was supplied by Klarna AB, and contains a larger number of observations than many other research papers on credit scoring. In this thesis, a two-stage regression refers to two staged regressions were the some kind of information from the first regression is used in the second regression to improve the overall performance. In the best performing models, the first stage was trained on alternative labels, payment status at earlier dates than the conventional. The predictions were then used as input to, or to segment, the second stage. This gave a gini increase of approximately 0.01. Using conventional scorecutoffs or distance to a decision boundary to segment the population did not improve performance. Denna uppsats har undersökt tvåstegs regulariserade logistiska regressioner för att estimera credit score hos konsumenter. Credit score är ett mått på kreditvärdighet och mäter sannolikheten att en person inte betalar tillbaka sin kredit. Data kommer från Klarna AB och innehåller fler observationer än mycket annan forskning om kreditvärdighet. Med tvåstegsregressioner menas i denna uppsats en regressionsmodell bestående av två steg där information från det första steget används i det andra steget för att förbättra den totala prestandan. De bäst presterande modellerna använder i det första steget en alternativ förklaringsvariabel, betalningsstatus vid en tidigare tidpunkt än den konventionella, för att segmentera eller som variabel i det andra steget. Detta gav en giniökning på approximativt 0,01. Användandet av enklare segmenteringsmetoder så som score-gränser eller avstånd till en beslutsgräns visade sig inte förbättra prestandan. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-160551application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Machine Learning Credit Scoring Two-stage Logistic Regressions Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
Machine Learning Credit Scoring Two-stage Logistic Regressions Computer Sciences Datavetenskap (datalogi) Lund, Anton Two-Stage Logistic Regression Models for Improved Credit Scoring |
description |
This thesis has investigated two-stage regularized logistic regressions applied on the credit scoring problem. Credit scoring refers to the practice of estimating the probability that a customer will default if given credit. The data was supplied by Klarna AB, and contains a larger number of observations than many other research papers on credit scoring. In this thesis, a two-stage regression refers to two staged regressions were the some kind of information from the first regression is used in the second regression to improve the overall performance. In the best performing models, the first stage was trained on alternative labels, payment status at earlier dates than the conventional. The predictions were then used as input to, or to segment, the second stage. This gave a gini increase of approximately 0.01. Using conventional scorecutoffs or distance to a decision boundary to segment the population did not improve performance. === Denna uppsats har undersökt tvåstegs regulariserade logistiska regressioner för att estimera credit score hos konsumenter. Credit score är ett mått på kreditvärdighet och mäter sannolikheten att en person inte betalar tillbaka sin kredit. Data kommer från Klarna AB och innehåller fler observationer än mycket annan forskning om kreditvärdighet. Med tvåstegsregressioner menas i denna uppsats en regressionsmodell bestående av två steg där information från det första steget används i det andra steget för att förbättra den totala prestandan. De bäst presterande modellerna använder i det första steget en alternativ förklaringsvariabel, betalningsstatus vid en tidigare tidpunkt än den konventionella, för att segmentera eller som variabel i det andra steget. Detta gav en giniökning på approximativt 0,01. Användandet av enklare segmenteringsmetoder så som score-gränser eller avstånd till en beslutsgräns visade sig inte förbättra prestandan. |
author |
Lund, Anton |
author_facet |
Lund, Anton |
author_sort |
Lund, Anton |
title |
Two-Stage Logistic Regression Models for Improved Credit Scoring |
title_short |
Two-Stage Logistic Regression Models for Improved Credit Scoring |
title_full |
Two-Stage Logistic Regression Models for Improved Credit Scoring |
title_fullStr |
Two-Stage Logistic Regression Models for Improved Credit Scoring |
title_full_unstemmed |
Two-Stage Logistic Regression Models for Improved Credit Scoring |
title_sort |
two-stage logistic regression models for improved credit scoring |
publisher |
KTH, Skolan för datavetenskap och kommunikation (CSC) |
publishDate |
2015 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-160551 |
work_keys_str_mv |
AT lundanton twostagelogisticregressionmodelsforimprovedcreditscoring AT lundanton tvastegslogistiskaregressionerforforbattradcreditscoring |
_version_ |
1718605279769133056 |