Multi-view versus single-view machine learning for disease diagnosis in primary healthcare

The work presented in this report considers and compares two different approaches of machine learning towards solving the problem of disease diagnosis prediction in primary healthcare: single-view and multi-view machine learning. In particular, the problem of disease diagnosis prediction refers to t...

Full description

Bibliographic Details
Main Author: Labroski, Aleksandar
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235533
id ndltd-UPSALLA1-oai-DiVA.org-kth-235533
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Labroski, Aleksandar
Multi-view versus single-view machine learning for disease diagnosis in primary healthcare
description The work presented in this report considers and compares two different approaches of machine learning towards solving the problem of disease diagnosis prediction in primary healthcare: single-view and multi-view machine learning. In particular, the problem of disease diagnosis prediction refers to the issue of predicting a (possible) diagnosis for a given patient based on her past medical history. The problem area is extensive, especially considering the fact that there are over 14,400 unique possible diagnoses (grouped into22 high level categories) that can be considered as prediction targets. The approach taken in this work considers the high-level categories as prediction targets and attempts to use the two different machine learning techniques towards getting close to an optimal solution of the issue. The multi-view machine learning paradigm was chosen as an approach that can improve predictive performance of classifiers in settings where we have multiple heterogeneous data sources (different views of the same data), which is exactlyt he case here. In order to compare the single-view and multi-view machine learning paradigms (based on the concept of supervised learning), several different experiments are devised which explore the possible solution space under each paradigm. The work closely touches on other machine learning concepts such as ensemble learning, stacked generalization and dimensionality reduction-based learning. As we shall see, the results show that multiview stacked generalization is a powerful paradigm that can significantly improve the predictive performance in a supervised learning setting. The different models performance was evaluated using F1 scores and we have been able to observe an average increase of performance of 0.04 and a maximum increase of 0.114 F1 score points. The findings also show that approach of multi-view stacked ensemble learning is particularly well suited as a noise reduction technique and works well in cases where the feature data is expected to contain a notable amount of noise. This can be very beneficial and of interest to projects where the features are not manually chosen by domainexperts. === Arbetet som presenteras i denna rapport beaktar och jämför två olika metoder för maskininlärning för att lösa problemet med prognos för sjukdomsdiagnos i primärvården: single-view och multi-view maskininlärning. I synnerhet avser problemet med sjukdomsdiagnos prediktion av en (möjlig) diagnos för en given patient, baserat på dennes tidigare medicinska historia. Problemområdet är omfattande, i synnerhet med tanke på att det finns över 14 400 unika möjliga diagnoser (grupperade i 22 högkvalitativa kategorier) som kan betraktas som förutsägbara. Tillvägagångssättet i detta arbete betraktar kategorierna i hög-nivå och försöker använda de två olika maskininlärningsteknikerna för att komma nära en optimal lösning på problemet. Multi-view maskininlärningsparadigmet valdes som ett tillvägagångssätt som kan förbättra prediktiv prestanda för klassifikationer i inställningar där vi har flera heterogena datakällor (olika visningar av samma data), vilket är det exakta fallet här. För att jämföra single-view och multi-view maskininlärning paradigmerna (baserat på begreppet övervakat lärande), är flera olika experiment utformade som undersöker det möjliga lösningsutrymmet under varje paradigm. Arbetet berör noga andra koncept för maskininlärning, som ensembleinlärning, samlad generalisering och dimensioneringsreduktionsbaserat lärande. Som vi kan se visar resultaten att multi-view samlad generalisering är ett kraftfullt paradigm som kan förbättra den prediktiva prestandan avsevärt i en övervakad inlärningsinställning. De olika modellernas prestanda utvärderades med hjälp av F1-poäng och vi har kunnat observera en genomsnittlig ökning av prestanda på 0,04 och en maximal ökning av 0.114 F1 poäng. Resultaten visar också att tillvägagångssättet för multi-view stacked ensemblelärande är särskilt väl lämpat som en brusreduceringsteknik och fungerar bra i fall där funktionsdata förväntas innehålla en anmärkningsvärd mängd brus. Detta kan vara mycket fördelaktigt och av intresse för projekt där funktioner inte manuellt väljs av domänexperter.
author Labroski, Aleksandar
author_facet Labroski, Aleksandar
author_sort Labroski, Aleksandar
title Multi-view versus single-view machine learning for disease diagnosis in primary healthcare
title_short Multi-view versus single-view machine learning for disease diagnosis in primary healthcare
title_full Multi-view versus single-view machine learning for disease diagnosis in primary healthcare
title_fullStr Multi-view versus single-view machine learning for disease diagnosis in primary healthcare
title_full_unstemmed Multi-view versus single-view machine learning for disease diagnosis in primary healthcare
title_sort multi-view versus single-view machine learning for disease diagnosis in primary healthcare
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2018
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235533
work_keys_str_mv AT labroskialeksandar multiviewversussingleviewmachinelearningfordiseasediagnosisinprimaryhealthcare
_version_ 1718743220394917888
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2355332018-09-29T06:06:57ZMulti-view versus single-view machine learning for disease diagnosis in primary healthcareengLabroski, AleksandarKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Computer and Information SciencesData- och informationsvetenskapThe work presented in this report considers and compares two different approaches of machine learning towards solving the problem of disease diagnosis prediction in primary healthcare: single-view and multi-view machine learning. In particular, the problem of disease diagnosis prediction refers to the issue of predicting a (possible) diagnosis for a given patient based on her past medical history. The problem area is extensive, especially considering the fact that there are over 14,400 unique possible diagnoses (grouped into22 high level categories) that can be considered as prediction targets. The approach taken in this work considers the high-level categories as prediction targets and attempts to use the two different machine learning techniques towards getting close to an optimal solution of the issue. The multi-view machine learning paradigm was chosen as an approach that can improve predictive performance of classifiers in settings where we have multiple heterogeneous data sources (different views of the same data), which is exactlyt he case here. In order to compare the single-view and multi-view machine learning paradigms (based on the concept of supervised learning), several different experiments are devised which explore the possible solution space under each paradigm. The work closely touches on other machine learning concepts such as ensemble learning, stacked generalization and dimensionality reduction-based learning. As we shall see, the results show that multiview stacked generalization is a powerful paradigm that can significantly improve the predictive performance in a supervised learning setting. The different models performance was evaluated using F1 scores and we have been able to observe an average increase of performance of 0.04 and a maximum increase of 0.114 F1 score points. The findings also show that approach of multi-view stacked ensemble learning is particularly well suited as a noise reduction technique and works well in cases where the feature data is expected to contain a notable amount of noise. This can be very beneficial and of interest to projects where the features are not manually chosen by domainexperts. Arbetet som presenteras i denna rapport beaktar och jämför två olika metoder för maskininlärning för att lösa problemet med prognos för sjukdomsdiagnos i primärvården: single-view och multi-view maskininlärning. I synnerhet avser problemet med sjukdomsdiagnos prediktion av en (möjlig) diagnos för en given patient, baserat på dennes tidigare medicinska historia. Problemområdet är omfattande, i synnerhet med tanke på att det finns över 14 400 unika möjliga diagnoser (grupperade i 22 högkvalitativa kategorier) som kan betraktas som förutsägbara. Tillvägagångssättet i detta arbete betraktar kategorierna i hög-nivå och försöker använda de två olika maskininlärningsteknikerna för att komma nära en optimal lösning på problemet. Multi-view maskininlärningsparadigmet valdes som ett tillvägagångssätt som kan förbättra prediktiv prestanda för klassifikationer i inställningar där vi har flera heterogena datakällor (olika visningar av samma data), vilket är det exakta fallet här. För att jämföra single-view och multi-view maskininlärning paradigmerna (baserat på begreppet övervakat lärande), är flera olika experiment utformade som undersöker det möjliga lösningsutrymmet under varje paradigm. Arbetet berör noga andra koncept för maskininlärning, som ensembleinlärning, samlad generalisering och dimensioneringsreduktionsbaserat lärande. Som vi kan se visar resultaten att multi-view samlad generalisering är ett kraftfullt paradigm som kan förbättra den prediktiva prestandan avsevärt i en övervakad inlärningsinställning. De olika modellernas prestanda utvärderades med hjälp av F1-poäng och vi har kunnat observera en genomsnittlig ökning av prestanda på 0,04 och en maximal ökning av 0.114 F1 poäng. Resultaten visar också att tillvägagångssättet för multi-view stacked ensemblelärande är särskilt väl lämpat som en brusreduceringsteknik och fungerar bra i fall där funktionsdata förväntas innehålla en anmärkningsvärd mängd brus. Detta kan vara mycket fördelaktigt och av intresse för projekt där funktioner inte manuellt väljs av domänexperter. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235533TRITA-EECS-EX ; 2018:587application/pdfinfo:eu-repo/semantics/openAccess