Bankruptcy Distributions and Modelling for Swedish Companies Using Logistic Regression

This thesis discusses the concept of bankruptcy, or default, for Swedish companies. The actual distribution over time is considered both on aggregate level and within different industries. Several models are constructed to best possible describe the default frequency. Mainly logistic regression mode...

Full description

Bibliographic Details
Main Author: Ewertzh, Jacob
Format: Others
Language:English
Published: KTH, Matematisk statistik 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-252329
Description
Summary:This thesis discusses the concept of bankruptcy, or default, for Swedish companies. The actual distribution over time is considered both on aggregate level and within different industries. Several models are constructed to best possible describe the default frequency. Mainly logistic regression models are designed for this purpose, but various other models are considered. Some of these are constructed for comparison and for the ambition to produce the most accurate model possible. A large data set of nearly 30 million quarterly observations is used in the analysis. Taking into account micro and macro economic data. The derived models cover different time periods, considering different variables and display varying levels of accuracy. The most exact model is a logistic regression model considering both micro and macro data. It is tested both in sample and out of sample and perform very well in both areas. This model is estimated on first a subset of the data set to be able to compare with a real scenario. Then an equivalent model is constructed from the whole data set to best possibly describe future scenarios. Here Vector Auto-Regressive (VAR) models, and empirical models constructed by OLS regression estimating the firm values, are used in combination with the logistic regression model to predict the future. All three models are used to describe the most likely scenarios, as well as the worst case scenarios. From the worst case scenarios risk measures, such as the empirical value at risk, can be derived. From all this analysis the most significant results are compiled. Namely, that the Logistic regression model performs remarkably well both in-sample and out-of-sample, if macro variables are taken into account. Further, the future results are harder to interpret. Yet, the analysis has arguments for prediction accuracy and interesting results of a continued low default frequency within the next year. === Den här uppsatsen avhandlar konceptet konkurs, för svenska företag. Den faktiska konkursfördelningen över tid analyseras, både på en sammanlagd nivå och inom olika industrier. Flera modeller konstrueras i syfte att bäst beskriva konkursfördelningen. Huvudsakligen är logistiska regressions modeller utformade för detta syfte, men andra typer av modeller är inkluderade i analysen. Några av dessa modeller är skapade för jämförelse, men också för att kunna producera en så exakt modell som möjligt. Ett stort data set med nästan 30 miljoner kvartalsvisa observationer används i analysen. Mikro- och makroekonomiska faktorer är inkluderade i detta data set. De framtagna modellerna omfattar olika tidsperioder mellan 1990–2018, tar in olika faktorer i analysen och visar på olika nivåer av noggrannhet. Modellen som har högst förklaringsgrad är en logistisk regressionsmodell som tar hänsyn till både mikro- och makroekonomiska faktorer. Denna modell analyseras både i och utanför sitt samplingsintervall, och visar på goda resultat i båda områdena. Modellen är först skattad på en delmängd av tidsperioden, för att kunna jämföra den förutspådda fördelningen med en faktisk fördelning. Sedan är en ekvivalent modell skattad på hela intervallet, för att bäst möjligt förutspå framtida scenarion. För detta syfte är Logistiska regressionsmodellen kombinerad med Vektor Autoregressiva (VAR)-modeller som förutspår makroekonomiska faktorer, och empiriska regressionsmodeller som förutspår mikroekonomiska faktorer. Alla tre modelltyper används för att kunna beskriva det mest sannolika scenariot, samt de värsta tänkbara scenariona. Från de värsta tänkbara scenariona kan riskmått, så som empiriska Value at Risk, tas fram. All analys producerar resultat och de viktigaste sammanställs. Dessa är att den logistiska regression modell som tar hänsyn till makroekonomiska faktorer ger bra resultat både i och utanför samplingsintervallet. Vidare är de framtida simulerade resultaten svårare att tolka, men den genomförda analysen har argument för exakthet i förutsägelserna. Därmed presenteras ett troligt framtida scenario med fortsatt låg konkurs frekvens inom det närmaste året.