Enhancing decision tree accuracy and compactness with improved categorical split and sampling techniques

Decision tree is one of the most popular algorithms in the domain of explainable AI. From its structure, it is simple to induce a set of decision rules which are totally understandable for a human. That is why there is currently research on improving decision or mapping other models into a tree. Dec...

Full description

Bibliographic Details
Main Author: Millerand, Gaëtan
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-279454
Description
Summary:Decision tree is one of the most popular algorithms in the domain of explainable AI. From its structure, it is simple to induce a set of decision rules which are totally understandable for a human. That is why there is currently research on improving decision or mapping other models into a tree. Decision trees generated by C4.5 or ID3 tree suffer from two main issues. The first one is that they often have lower performances in term of accuracy for classification tasks or mean square error for regression tasks compared to state-of-the-art models like XGBoost or deep neural networks. On almost every task, there is an important gap between top models like XGboost and decision trees. This thesis addresses this problem by providing a new method based on data augmentation using state-of-the-art models which outperforms the old ones regarding evaluation metrics. The second problem is the compactness of the decision tree, as the depth increases the set of rules becomes exponentially big, especially when the splitted attribute is a categorical one. Standards solution to handle categorical values are to turn them into dummy variables or to split on each value producing complex models. A comparative study of current methods of splitting categorical values in classification problems is done in this thesis. A new method is also studied in the case of regression.  === Beslutsträd är en av de mest populära algoritmerna i den förklarbara AI-domänen. I själva verket är det från dess struktur verkligen enkelt att framställa en uppsättning beslutsregler som är helt förståeliga för en vanlig användare. Därför forskas det för närvarande på att förbättra beslut eller kartlägga andra modeller i ett träd. Beslutsträd genererat av C4.5 eller ID3-träd lider av två huvudproblem. Den första är att de ofta har lägre prestanda när det gäller noggrannhet för klassificeringsuppgifter eller medelkvadratfel för regressionsuppgiftens noggrannhet jämfört med modernaste modeller som XGBoost eller djupa neurala nätverk. I nästan varje uppgift finns det faktiskt ett viktigt gap mellan toppmodeller som XGboost och beslutsträd. Detta examensarbete tar upp detta problem genom att tillhandahålla en ny metod baserad på dataförstärkning med hjälp av modernaste modeller som överträffar de gamla när det gäller utvärderingsmätningar. Det andra problemet är beslutsträdets kompakthet, allteftersom djupet ökar, blir uppsättningen av regler exponentiellt stor, särskilt när det delade attributet är kategoriskt. Standardlösning för att hantera kategoriska värden är att förvandla dem till dummiesvariabler eller dela på varje värde som producerar komplexa modeller. En jämförande studie av nuvarande metoder för att dela kategoriska värden i klassificeringsproblem görs i detta examensarbete, en ny metod studeras också i fallet med regression.