Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
The fundamental question studied in this thesis is how to evaluate and analyse supervised learning algorithms and classifiers. As a first step, we analyse current evaluation methods. Each method is described and categorised according to a number of properties. One conclusion of the analysis is that...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
Department of Systems and Software Engineering, School of Engineering, Blekinge Institute of Technology, Sweden
2006
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-37938 http://nbn-resolving.de/urn:isbn:91-7295-083-8 |
id |
ndltd-UPSALLA1-oai-DiVA.org-hj-37938 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
machine learning evaluation classification Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
machine learning evaluation classification Computer Sciences Datavetenskap (datalogi) Lavesson, Niklas Evaluation and Analysis of Supervised Learning Algorithms and Classifiers |
description |
The fundamental question studied in this thesis is how to evaluate and analyse supervised learning algorithms and classifiers. As a first step, we analyse current evaluation methods. Each method is described and categorised according to a number of properties. One conclusion of the analysis is that performance is often only measured in terms of accuracy, e.g., through cross-validation tests. However, some researchers have questioned the validity of using accuracy as the only performance metric. Also, the number of instances available for evaluation is usually very limited. In order to deal with these issues, measure functions have been suggested as a promising approach. However, a limitation of current measure functions is that they can only handle two-dimensional instance spaces. We present the design and implementation of a generalised multi-dimensional measure function and demonstrate its use through a set of experiments. The results indicate that there are cases for which measure functions may be able to capture aspects of performance that cannot be captured by cross-validation tests. Finally, we investigate the impact of learning algorithm parameter tuning. To accomplish this, we first define two quality attributes (sensitivity and classification performance) as well as two metrics for measuring each of the attributes. Using these metrics, a systematic comparison is made between four learning algorithms on eight data sets. The results indicate that parameter tuning is often more important than the choice of algorithm. Moreover, quantitative support is provided to the assertion that some algorithms are more robust than others with respect to parameter configuration. To sum up, the contributions of this thesis include; the definition and application of a formal framework which enables comparison and deeper understanding of evaluation methods from different fields of research, a survey of current evaluation methods, the implementation and analysis of a multi-dimensional measure function and the definition and analysis of quality attributes used to investigate the impact of learning algorithm parameter tuning. === Den centrala frågan som studeras i denna uppsats är hur övervakade inlärningsalgoritmer och klassificerare ska utvärderas och analyseras. Som ett första steg analyserar vi existerande utvärderingsmetoder. Varje metod beskrivs och kategoriseras enligt ett antal egenskaper. En slutsats är att prestanda ofta mäts i form av korrekthet, exempelvis med korsvalidering. Några studier har emellertid ifrågasatt användandet av korrekthet som enda mått för prestanda. Dessutom är datamängden som är tillgänglig för utvärdering oftast begränsad. Användandet av mätfunktioner har givits som förslag för att hantera dessa problem. En begränsning med existerande mätfunktioner är att de bara kan hantera tvådimensionella instansrum. Vi presenterar en generaliserad flerdimensionell mätfunktion och demonstrerar användbarheten med ett experiment. Resultaten indikerar att det finns fall då mätfunktioner fånga andra aspekter av prestanda än korsvalideringstest. Slutligen undersöker vi effekten av parameterjustering. Detta görs genom att definiera två kvalitetsattribut (känslighet och klassificeringsprestanda) samt två mått för varje attribut. Dessa mått används för att utföra en systematisk jämförelse mellan fyra inlärningsalgoritmer över åtta datamängder. Resultaten indikerar att parameterjustering oftast är viktigare än val av algoritm. Kvantitativt stöd ges också åt påståendet att vissa algoritmer är mer robusta än andra vad gäller parameter konfiguration. Bidragen från denna uppsats innehåller; definition och användande av ett formellt ramverk som möjliggör jämförelse och djupare förståelse för utvärderingsmetoder från olika forskningsdiscipliner, en överblick av existerande utvärderingsmetoder, en implementation och analys av en flerdimensionell mätfunktion samt en definition och analys av kvalitetsattribut som används för att undersöka effekten av parameterjustering för inlärningsalgoritmer. |
author |
Lavesson, Niklas |
author_facet |
Lavesson, Niklas |
author_sort |
Lavesson, Niklas |
title |
Evaluation and Analysis of Supervised Learning Algorithms and Classifiers |
title_short |
Evaluation and Analysis of Supervised Learning Algorithms and Classifiers |
title_full |
Evaluation and Analysis of Supervised Learning Algorithms and Classifiers |
title_fullStr |
Evaluation and Analysis of Supervised Learning Algorithms and Classifiers |
title_full_unstemmed |
Evaluation and Analysis of Supervised Learning Algorithms and Classifiers |
title_sort |
evaluation and analysis of supervised learning algorithms and classifiers |
publisher |
Department of Systems and Software Engineering, School of Engineering, Blekinge Institute of Technology, Sweden |
publishDate |
2006 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-37938 http://nbn-resolving.de/urn:isbn:91-7295-083-8 |
work_keys_str_mv |
AT lavessonniklas evaluationandanalysisofsupervisedlearningalgorithmsandclassifiers AT lavessonniklas utvarderingochanalysavovervakadeinlarningsalgoritmerochklassificerare |
_version_ |
1718787321055150080 |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-hj-379382018-10-26T06:15:34ZEvaluation and Analysis of Supervised Learning Algorithms and ClassifiersengUtvärdering och Analys av Övervakade Inlärningsalgoritmer och KlassificerareLavesson, NiklasDepartment of Systems and Software Engineering, School of Engineering, Blekinge Institute of Technology, SwedenKarlskrona : Blekinge Institute of Technology2006machine learningevaluationclassificationComputer SciencesDatavetenskap (datalogi)The fundamental question studied in this thesis is how to evaluate and analyse supervised learning algorithms and classifiers. As a first step, we analyse current evaluation methods. Each method is described and categorised according to a number of properties. One conclusion of the analysis is that performance is often only measured in terms of accuracy, e.g., through cross-validation tests. However, some researchers have questioned the validity of using accuracy as the only performance metric. Also, the number of instances available for evaluation is usually very limited. In order to deal with these issues, measure functions have been suggested as a promising approach. However, a limitation of current measure functions is that they can only handle two-dimensional instance spaces. We present the design and implementation of a generalised multi-dimensional measure function and demonstrate its use through a set of experiments. The results indicate that there are cases for which measure functions may be able to capture aspects of performance that cannot be captured by cross-validation tests. Finally, we investigate the impact of learning algorithm parameter tuning. To accomplish this, we first define two quality attributes (sensitivity and classification performance) as well as two metrics for measuring each of the attributes. Using these metrics, a systematic comparison is made between four learning algorithms on eight data sets. The results indicate that parameter tuning is often more important than the choice of algorithm. Moreover, quantitative support is provided to the assertion that some algorithms are more robust than others with respect to parameter configuration. To sum up, the contributions of this thesis include; the definition and application of a formal framework which enables comparison and deeper understanding of evaluation methods from different fields of research, a survey of current evaluation methods, the implementation and analysis of a multi-dimensional measure function and the definition and analysis of quality attributes used to investigate the impact of learning algorithm parameter tuning. Den centrala frågan som studeras i denna uppsats är hur övervakade inlärningsalgoritmer och klassificerare ska utvärderas och analyseras. Som ett första steg analyserar vi existerande utvärderingsmetoder. Varje metod beskrivs och kategoriseras enligt ett antal egenskaper. En slutsats är att prestanda ofta mäts i form av korrekthet, exempelvis med korsvalidering. Några studier har emellertid ifrågasatt användandet av korrekthet som enda mått för prestanda. Dessutom är datamängden som är tillgänglig för utvärdering oftast begränsad. Användandet av mätfunktioner har givits som förslag för att hantera dessa problem. En begränsning med existerande mätfunktioner är att de bara kan hantera tvådimensionella instansrum. Vi presenterar en generaliserad flerdimensionell mätfunktion och demonstrerar användbarheten med ett experiment. Resultaten indikerar att det finns fall då mätfunktioner fånga andra aspekter av prestanda än korsvalideringstest. Slutligen undersöker vi effekten av parameterjustering. Detta görs genom att definiera två kvalitetsattribut (känslighet och klassificeringsprestanda) samt två mått för varje attribut. Dessa mått används för att utföra en systematisk jämförelse mellan fyra inlärningsalgoritmer över åtta datamängder. Resultaten indikerar att parameterjustering oftast är viktigare än val av algoritm. Kvantitativt stöd ges också åt påståendet att vissa algoritmer är mer robusta än andra vad gäller parameter konfiguration. Bidragen från denna uppsats innehåller; definition och användande av ett formellt ramverk som möjliggör jämförelse och djupare förståelse för utvärderingsmetoder från olika forskningsdiscipliner, en överblick av existerande utvärderingsmetoder, en implementation och analys av en flerdimensionell mätfunktion samt en definition och analys av kvalitetsattribut som används för att undersöka effekten av parameterjustering för inlärningsalgoritmer. Licentiate thesis, comprehensive summaryinfo:eu-repo/semantics/masterThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:hj:diva-37938urn:isbn:91-7295-083-8Blekinge Institute of Technology Licentiate Dissertation Series, 1650-2140 ; 2006:04application/pdfinfo:eu-repo/semantics/openAccess |