A Comparative study of data splitting algorithms for machine learning model selection

Data splitting is commonly used in machine learning to split data into a train, test, or validation set. This approach allows us to find the model hyper-parameter and also estimate the generalization performance. In this research, we conducted a comparative analysis of different data partitioning al...

Full description

Bibliographic Details
Main Author:	Birba, Delwende Eliane
Format:	Others
Language:	English
Published:	KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:	K-fold cross-validation Kennard-Stone algorithm data splitting bootstrap overfitting SPXY k-faldig korsvalidering korsvalidering Kennard-Stone-algoritm datapartitionering överanpassning Computer and Information Sciences Data- och informationsvetenskap
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-287194

id	ndltd-UPSALLA1-oai-DiVA.org-kth-287194
record_format	oai_dc
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	K-fold cross-validation Kennard-Stone algorithm data splitting bootstrap overfitting SPXY k-faldig korsvalidering korsvalidering Kennard-Stone-algoritm datapartitionering bootstrap överanpassning SPXY Computer and Information Sciences Data- och informationsvetenskap
spellingShingle	K-fold cross-validation Kennard-Stone algorithm data splitting bootstrap overfitting SPXY k-faldig korsvalidering korsvalidering Kennard-Stone-algoritm datapartitionering bootstrap överanpassning SPXY Computer and Information Sciences Data- och informationsvetenskap Birba, Delwende Eliane A Comparative study of data splitting algorithms for machine learning model selection
description	Data splitting is commonly used in machine learning to split data into a train, test, or validation set. This approach allows us to find the model hyper-parameter and also estimate the generalization performance. In this research, we conducted a comparative analysis of different data partitioning algorithms on both real and simulated data. Our main objective was to address the question of how the choice of data splitting algorithm can improve the estimation of the generalization performance. Data splitting algorithms used in this study were variants of k-fold, Kennard-Stone, SPXY ( sample set partitioning based on joint x-y distance), and random sampling algorithm. Each algorithm divided the data into two subset, training/validation. The training set was used to fit the model and validation for the evaluation. We then analyzed the different data splitting algorithms based on the generalization performances estimated from the validation and the external test set. From the result, we noted that the important determinant for a good generalization is the size of the dataset. For all the data sample methods applied on small data set, the gap between the performance estimated on the validation and test set was significant. However, we noted that the gap reduced when there was more data in training or validation. Too many or few data in the training set can also lead to bad model performance. So it is importance to have a reasonable balance between the training/validation set sizes. In our study, KS and SPXY was the splitting algorithm with poor model performance estimation. Indeed these methods select the most representative samples to train the model, and poor representative samples are left for model performance estimation. === Datapartitionering används vanligtvis i maskininlärning för att dela data i en tränings, test eller valideringsuppsättning. Detta tillvägagångssätt gör det möjligt för oss att hitta hyperparametrar för modellen och även uppskatta generaliseringsprestanda. I denna forskning genomförde vi en jämförande analys av olika datapartitionsalgoritmer på både verkliga och simulerade data. Vårt huvudmål var att undersöka frågan om hur valet avdatapartitioneringsalgoritm kan förbättra uppskattningen av generaliseringsprestanda. Datapartitioneringsalgoritmer som användes i denna studie var varianter av k-faldig korsvalidering, Kennard-Stone (KS), SPXY (partitionering baserat på gemensamt x-y-avstånd) och bootstrap-algoritm. Varje algoritm användes för att dela upp data i två olika datamängder: tränings- och valideringsdata. Vi analyserade sedan de olika datapartitioneringsalgoritmerna baserat på generaliseringsprestanda uppskattade från valideringen och den externa testuppsättningen. Från resultatet noterade vi att det avgörande för en bra generalisering är storleken på data. För alla datapartitioneringsalgoritmer som använts på små datamängder var klyftan mellan prestanda uppskattad på valideringen och testuppsättningen betydande. Vi noterade emellertid att gapet minskade när det fanns mer data för träning eller validering. För mycket eller för litet data i träningsuppsättningen kan också leda till dålig prestanda. Detta belyser vikten av att ha en korrekt balans mellan storlekarna på tränings- och valideringsmängderna. I vår studie var KS och SPXY de algoritmer med sämst prestanda. Dessa metoder väljer de mest representativa instanserna för att träna modellen, och icke-representativa instanser lämnas för uppskattning av modellprestanda.
author	Birba, Delwende Eliane
author_facet	Birba, Delwende Eliane
author_sort	Birba, Delwende Eliane
title	A Comparative study of data splitting algorithms for machine learning model selection
title_short	A Comparative study of data splitting algorithms for machine learning model selection
title_full	A Comparative study of data splitting algorithms for machine learning model selection
title_fullStr	A Comparative study of data splitting algorithms for machine learning model selection
title_full_unstemmed	A Comparative study of data splitting algorithms for machine learning model selection
title_sort	comparative study of data splitting algorithms for machine learning model selection
publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate	2020
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-287194
work_keys_str_mv	AT birbadelwendeeliane acomparativestudyofdatasplittingalgorithmsformachinelearningmodelselection AT birbadelwendeeliane comparativestudyofdatasplittingalgorithmsformachinelearningmodelselection
_version_	1719368749395476480
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2871942020-12-09T05:39:23ZA Comparative study of data splitting algorithms for machine learning model selectionengBirba, Delwende ElianeKTH, Skolan för elektroteknik och datavetenskap (EECS)2020K-foldcross-validationKennard-Stone algorithmdata splittingbootstrapoverfittingSPXYk-faldig korsvalideringkorsvalideringKennard-Stone-algoritmdatapartitioneringbootstrapöveranpassningSPXYComputer and Information SciencesData- och informationsvetenskapData splitting is commonly used in machine learning to split data into a train, test, or validation set. This approach allows us to find the model hyper-parameter and also estimate the generalization performance. In this research, we conducted a comparative analysis of different data partitioning algorithms on both real and simulated data. Our main objective was to address the question of how the choice of data splitting algorithm can improve the estimation of the generalization performance. Data splitting algorithms used in this study were variants of k-fold, Kennard-Stone, SPXY ( sample set partitioning based on joint x-y distance), and random sampling algorithm. Each algorithm divided the data into two subset, training/validation. The training set was used to fit the model and validation for the evaluation. We then analyzed the different data splitting algorithms based on the generalization performances estimated from the validation and the external test set. From the result, we noted that the important determinant for a good generalization is the size of the dataset. For all the data sample methods applied on small data set, the gap between the performance estimated on the validation and test set was significant. However, we noted that the gap reduced when there was more data in training or validation. Too many or few data in the training set can also lead to bad model performance. So it is importance to have a reasonable balance between the training/validation set sizes. In our study, KS and SPXY was the splitting algorithm with poor model performance estimation. Indeed these methods select the most representative samples to train the model, and poor representative samples are left for model performance estimation. Datapartitionering används vanligtvis i maskininlärning för att dela data i en tränings, test eller valideringsuppsättning. Detta tillvägagångssätt gör det möjligt för oss att hitta hyperparametrar för modellen och även uppskatta generaliseringsprestanda. I denna forskning genomförde vi en jämförande analys av olika datapartitionsalgoritmer på både verkliga och simulerade data. Vårt huvudmål var att undersöka frågan om hur valet avdatapartitioneringsalgoritm kan förbättra uppskattningen av generaliseringsprestanda. Datapartitioneringsalgoritmer som användes i denna studie var varianter av k-faldig korsvalidering, Kennard-Stone (KS), SPXY (partitionering baserat på gemensamt x-y-avstånd) och bootstrap-algoritm. Varje algoritm användes för att dela upp data i två olika datamängder: tränings- och valideringsdata. Vi analyserade sedan de olika datapartitioneringsalgoritmerna baserat på generaliseringsprestanda uppskattade från valideringen och den externa testuppsättningen. Från resultatet noterade vi att det avgörande för en bra generalisering är storleken på data. För alla datapartitioneringsalgoritmer som använts på små datamängder var klyftan mellan prestanda uppskattad på valideringen och testuppsättningen betydande. Vi noterade emellertid att gapet minskade när det fanns mer data för träning eller validering. För mycket eller för litet data i träningsuppsättningen kan också leda till dålig prestanda. Detta belyser vikten av att ha en korrekt balans mellan storlekarna på tränings- och valideringsmängderna. I vår studie var KS och SPXY de algoritmer med sämst prestanda. Dessa metoder väljer de mest representativa instanserna för att träna modellen, och icke-representativa instanser lämnas för uppskattning av modellprestanda. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-287194TRITA-EECS-EX ; 2020:784application/pdfinfo:eu-repo/semantics/openAccess

A Comparative study of data splitting algorithms for machine learning model selection

Similar Items