Two-Stage Logistic Regression Models for Improved Credit Scoring

This thesis has investigated two-stage regularized logistic regressions applied on the credit scoring problem. Credit scoring refers to the practice of estimating the probability that a customer will default if given credit. The data was supplied by Klarna AB, and contains a larger number of observa...

Full description

Bibliographic Details
Main Author: Lund, Anton
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2015
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-160551
id ndltd-UPSALLA1-oai-DiVA.org-kth-160551
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1605512018-01-12T05:09:48ZTwo-Stage Logistic Regression Models for Improved Credit ScoringengTvå-stegs logistiska regressioner för förbättrad credit scoringLund, AntonKTH, Skolan för datavetenskap och kommunikation (CSC)2015Machine LearningCredit ScoringTwo-stage Logistic RegressionsComputer SciencesDatavetenskap (datalogi)This thesis has investigated two-stage regularized logistic regressions applied on the credit scoring problem. Credit scoring refers to the practice of estimating the probability that a customer will default if given credit. The data was supplied by Klarna AB, and contains a larger number of observations than many other research papers on credit scoring. In this thesis, a two-stage regression refers to two staged regressions were the some kind of information from the first regression is used in the second regression to improve the overall performance. In the best performing models, the first stage was trained on alternative labels, payment status at earlier dates than the conventional. The predictions were then used as input to, or to segment, the second stage. This gave a gini increase of approximately 0.01. Using conventional scorecutoffs or distance to a decision boundary to segment the population did not improve performance. Denna uppsats har undersökt tvåstegs regulariserade logistiska regressioner för att estimera credit score hos konsumenter. Credit score är ett mått på kreditvärdighet och mäter sannolikheten att en person inte betalar tillbaka sin kredit. Data kommer från Klarna AB och innehåller fler observationer än mycket annan forskning om kreditvärdighet. Med tvåstegsregressioner menas i denna uppsats en regressionsmodell bestående av två steg där information från det första steget används i det andra steget för att förbättra den totala prestandan. De bäst presterande modellerna använder i det första steget en alternativ förklaringsvariabel, betalningsstatus vid en tidigare tidpunkt än den konventionella, för att segmentera eller som variabel i det andra steget. Detta gav en giniökning på approximativt 0,01. Användandet av enklare segmenteringsmetoder så som score-gränser eller avstånd till en beslutsgräns visade sig inte förbättra prestandan. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-160551application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Machine Learning
Credit Scoring
Two-stage Logistic Regressions
Computer Sciences
Datavetenskap (datalogi)
spellingShingle Machine Learning
Credit Scoring
Two-stage Logistic Regressions
Computer Sciences
Datavetenskap (datalogi)
Lund, Anton
Two-Stage Logistic Regression Models for Improved Credit Scoring
description This thesis has investigated two-stage regularized logistic regressions applied on the credit scoring problem. Credit scoring refers to the practice of estimating the probability that a customer will default if given credit. The data was supplied by Klarna AB, and contains a larger number of observations than many other research papers on credit scoring. In this thesis, a two-stage regression refers to two staged regressions were the some kind of information from the first regression is used in the second regression to improve the overall performance. In the best performing models, the first stage was trained on alternative labels, payment status at earlier dates than the conventional. The predictions were then used as input to, or to segment, the second stage. This gave a gini increase of approximately 0.01. Using conventional scorecutoffs or distance to a decision boundary to segment the population did not improve performance. === Denna uppsats har undersökt tvåstegs regulariserade logistiska regressioner för att estimera credit score hos konsumenter. Credit score är ett mått på kreditvärdighet och mäter sannolikheten att en person inte betalar tillbaka sin kredit. Data kommer från Klarna AB och innehåller fler observationer än mycket annan forskning om kreditvärdighet. Med tvåstegsregressioner menas i denna uppsats en regressionsmodell bestående av två steg där information från det första steget används i det andra steget för att förbättra den totala prestandan. De bäst presterande modellerna använder i det första steget en alternativ förklaringsvariabel, betalningsstatus vid en tidigare tidpunkt än den konventionella, för att segmentera eller som variabel i det andra steget. Detta gav en giniökning på approximativt 0,01. Användandet av enklare segmenteringsmetoder så som score-gränser eller avstånd till en beslutsgräns visade sig inte förbättra prestandan.
author Lund, Anton
author_facet Lund, Anton
author_sort Lund, Anton
title Two-Stage Logistic Regression Models for Improved Credit Scoring
title_short Two-Stage Logistic Regression Models for Improved Credit Scoring
title_full Two-Stage Logistic Regression Models for Improved Credit Scoring
title_fullStr Two-Stage Logistic Regression Models for Improved Credit Scoring
title_full_unstemmed Two-Stage Logistic Regression Models for Improved Credit Scoring
title_sort two-stage logistic regression models for improved credit scoring
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2015
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-160551
work_keys_str_mv AT lundanton twostagelogisticregressionmodelsforimprovedcreditscoring
AT lundanton tvastegslogistiskaregressionerforforbattradcreditscoring
_version_ 1718605279769133056