Evaluation and Analysis of Supervised Learning Algorithms and Classifiers

The fundamental question studied in this thesis is how to evaluate and analyse supervised learning algorithms and classifiers. As a first step, we analyse current evaluation methods. Each method is described and categorised according to a number of properties. One conclusion of the analysis is that...

Full description

Bibliographic Details
Main Author: Lavesson, Niklas
Format: Others
Language:English
Published: Department of Systems and Software Engineering, School of Engineering, Blekinge Institute of Technology, Sweden 2006
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-37938
http://nbn-resolving.de/urn:isbn:91-7295-083-8
id ndltd-UPSALLA1-oai-DiVA.org-hj-37938
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic machine learning
evaluation
classification
Computer Sciences
Datavetenskap (datalogi)
spellingShingle machine learning
evaluation
classification
Computer Sciences
Datavetenskap (datalogi)
Lavesson, Niklas
Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
description The fundamental question studied in this thesis is how to evaluate and analyse supervised learning algorithms and classifiers. As a first step, we analyse current evaluation methods. Each method is described and categorised according to a number of properties. One conclusion of the analysis is that performance is often only measured in terms of accuracy, e.g., through cross-validation tests. However, some researchers have questioned the validity of using accuracy as the only performance metric. Also, the number of instances available for evaluation is usually very limited. In order to deal with these issues, measure functions have been suggested as a promising approach. However, a limitation of current measure functions is that they can only handle two-dimensional instance spaces. We present the design and implementation of a generalised multi-dimensional measure function and demonstrate its use through a set of experiments. The results indicate that there are cases for which measure functions may be able to capture aspects of performance that cannot be captured by cross-validation tests. Finally, we investigate the impact of learning algorithm parameter tuning. To accomplish this, we first define two quality attributes (sensitivity and classification performance) as well as two metrics for measuring each of the attributes. Using these metrics, a systematic comparison is made between four learning algorithms on eight data sets. The results indicate that parameter tuning is often more important than the choice of algorithm. Moreover, quantitative support is provided to the assertion that some algorithms are more robust than others with respect to parameter configuration. To sum up, the contributions of this thesis include; the definition and application of a formal framework which enables comparison and deeper understanding of evaluation methods from different fields of research, a survey of current evaluation methods, the implementation and analysis of a multi-dimensional measure function and the definition and analysis of quality attributes used to investigate the impact of learning algorithm parameter tuning. === Den centrala frågan som studeras i denna uppsats är hur övervakade inlärningsalgoritmer och klassificerare ska utvärderas och analyseras. Som ett första steg analyserar vi existerande utvärderingsmetoder. Varje metod beskrivs och kategoriseras enligt ett antal egenskaper. En slutsats är att prestanda ofta mäts i form av korrekthet, exempelvis med korsvalidering. Några studier har emellertid ifrågasatt användandet av korrekthet som enda mått för prestanda. Dessutom är datamängden som är tillgänglig för utvärdering oftast begränsad. Användandet av mätfunktioner har givits som förslag för att hantera dessa problem. En begränsning med existerande mätfunktioner är att de bara kan hantera tvådimensionella instansrum. Vi presenterar en generaliserad flerdimensionell mätfunktion och demonstrerar användbarheten med ett experiment. Resultaten indikerar att det finns fall då mätfunktioner fånga andra aspekter av prestanda än korsvalideringstest. Slutligen undersöker vi effekten av parameterjustering. Detta görs genom att definiera två kvalitetsattribut (känslighet och klassificeringsprestanda) samt två mått för varje attribut. Dessa mått används för att utföra en systematisk jämförelse mellan fyra inlärningsalgoritmer över åtta datamängder. Resultaten indikerar att parameterjustering oftast är viktigare än val av algoritm. Kvantitativt stöd ges också åt påståendet att vissa algoritmer är mer robusta än andra vad gäller parameter konfiguration. Bidragen från denna uppsats innehåller; definition och användande av ett formellt ramverk som möjliggör jämförelse och djupare förståelse för utvärderingsmetoder från olika forskningsdiscipliner, en överblick av existerande utvärderingsmetoder, en implementation och analys av en flerdimensionell mätfunktion samt en definition och analys av kvalitetsattribut som används för att undersöka effekten av parameterjustering för inlärningsalgoritmer.
author Lavesson, Niklas
author_facet Lavesson, Niklas
author_sort Lavesson, Niklas
title Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
title_short Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
title_full Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
title_fullStr Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
title_full_unstemmed Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
title_sort evaluation and analysis of supervised learning algorithms and classifiers
publisher Department of Systems and Software Engineering, School of Engineering, Blekinge Institute of Technology, Sweden
publishDate 2006
url http://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-37938
http://nbn-resolving.de/urn:isbn:91-7295-083-8
work_keys_str_mv AT lavessonniklas evaluationandanalysisofsupervisedlearningalgorithmsandclassifiers
AT lavessonniklas utvarderingochanalysavovervakadeinlarningsalgoritmerochklassificerare
_version_ 1718787321055150080
spelling ndltd-UPSALLA1-oai-DiVA.org-hj-379382018-10-26T06:15:34ZEvaluation and Analysis of Supervised Learning Algorithms and ClassifiersengUtvärdering och Analys av Övervakade Inlärningsalgoritmer och KlassificerareLavesson, NiklasDepartment of Systems and Software Engineering, School of Engineering, Blekinge Institute of Technology, SwedenKarlskrona : Blekinge Institute of Technology2006machine learningevaluationclassificationComputer SciencesDatavetenskap (datalogi)The fundamental question studied in this thesis is how to evaluate and analyse supervised learning algorithms and classifiers. As a first step, we analyse current evaluation methods. Each method is described and categorised according to a number of properties. One conclusion of the analysis is that performance is often only measured in terms of accuracy, e.g., through cross-validation tests. However, some researchers have questioned the validity of using accuracy as the only performance metric. Also, the number of instances available for evaluation is usually very limited. In order to deal with these issues, measure functions have been suggested as a promising approach. However, a limitation of current measure functions is that they can only handle two-dimensional instance spaces. We present the design and implementation of a generalised multi-dimensional measure function and demonstrate its use through a set of experiments. The results indicate that there are cases for which measure functions may be able to capture aspects of performance that cannot be captured by cross-validation tests. Finally, we investigate the impact of learning algorithm parameter tuning. To accomplish this, we first define two quality attributes (sensitivity and classification performance) as well as two metrics for measuring each of the attributes. Using these metrics, a systematic comparison is made between four learning algorithms on eight data sets. The results indicate that parameter tuning is often more important than the choice of algorithm. Moreover, quantitative support is provided to the assertion that some algorithms are more robust than others with respect to parameter configuration. To sum up, the contributions of this thesis include; the definition and application of a formal framework which enables comparison and deeper understanding of evaluation methods from different fields of research, a survey of current evaluation methods, the implementation and analysis of a multi-dimensional measure function and the definition and analysis of quality attributes used to investigate the impact of learning algorithm parameter tuning. Den centrala frågan som studeras i denna uppsats är hur övervakade inlärningsalgoritmer och klassificerare ska utvärderas och analyseras. Som ett första steg analyserar vi existerande utvärderingsmetoder. Varje metod beskrivs och kategoriseras enligt ett antal egenskaper. En slutsats är att prestanda ofta mäts i form av korrekthet, exempelvis med korsvalidering. Några studier har emellertid ifrågasatt användandet av korrekthet som enda mått för prestanda. Dessutom är datamängden som är tillgänglig för utvärdering oftast begränsad. Användandet av mätfunktioner har givits som förslag för att hantera dessa problem. En begränsning med existerande mätfunktioner är att de bara kan hantera tvådimensionella instansrum. Vi presenterar en generaliserad flerdimensionell mätfunktion och demonstrerar användbarheten med ett experiment. Resultaten indikerar att det finns fall då mätfunktioner fånga andra aspekter av prestanda än korsvalideringstest. Slutligen undersöker vi effekten av parameterjustering. Detta görs genom att definiera två kvalitetsattribut (känslighet och klassificeringsprestanda) samt två mått för varje attribut. Dessa mått används för att utföra en systematisk jämförelse mellan fyra inlärningsalgoritmer över åtta datamängder. Resultaten indikerar att parameterjustering oftast är viktigare än val av algoritm. Kvantitativt stöd ges också åt påståendet att vissa algoritmer är mer robusta än andra vad gäller parameter konfiguration. Bidragen från denna uppsats innehåller; definition och användande av ett formellt ramverk som möjliggör jämförelse och djupare förståelse för utvärderingsmetoder från olika forskningsdiscipliner, en överblick av existerande utvärderingsmetoder, en implementation och analys av en flerdimensionell mätfunktion samt en definition och analys av kvalitetsattribut som används för att undersöka effekten av parameterjustering för inlärningsalgoritmer. Licentiate thesis, comprehensive summaryinfo:eu-repo/semantics/masterThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-37938urn:isbn:91-7295-083-8Blekinge Institute of Technology Licentiate Dissertation Series, 1650-2140 ; 2006:04application/pdfinfo:eu-repo/semantics/openAccess