Machine Learning for Automation of Chromosome based Genetic Diagnostics

Chromosome based genetic diagnostics, the detection of specific chromosomes, plays an increasingly important role in medicine as the molecular basis of hu- man disease is defined. The current diagnostic process is performed mainly by karyotyping specialists. They first put chromosomes in pairs and g...

Full description

Bibliographic Details
Main Author: Chu, Gongchang
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-286284
id ndltd-UPSALLA1-oai-DiVA.org-kth-286284
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Genetic Diagnostics
Abnormality Detection
Transfer Learning
Deep Learning
Uncertainty Estimation
Genetisk diagnos
onormal detektion
överföringsinlärning
djupinlärning
osäkerhetsuppskattning
Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Genetic Diagnostics
Abnormality Detection
Transfer Learning
Deep Learning
Uncertainty Estimation
Genetisk diagnos
onormal detektion
överföringsinlärning
djupinlärning
osäkerhetsuppskattning
Computer and Information Sciences
Data- och informationsvetenskap
Chu, Gongchang
Machine Learning for Automation of Chromosome based Genetic Diagnostics
description Chromosome based genetic diagnostics, the detection of specific chromosomes, plays an increasingly important role in medicine as the molecular basis of hu- man disease is defined. The current diagnostic process is performed mainly by karyotyping specialists. They first put chromosomes in pairs and generate an image listing all the chromosome pairs in order. This process is called kary- otyping, and the generated image is called karyogram. Then they analyze the images based on the shapes, size, and relationships of different image segments and then make diagnostic decisions. Manual inspection is time-consuming, labor-intensive, and error-prone.This thesis investigates supervised methods for genetic diagnostics on karyo- grams. Mainly, the theory targets abnormality detection and gives the confi- dence of the result in the chromosome domain. This thesis aims to divide chromosome pictures into normal and abnormal categories and give the con- fidence level. The main contributions of this thesis are (1) an empirical study of chromosome and karyotyping; (2) appropriate data preprocessing; (3) neu- ral networks building by using transfer learning; (4) experiments on different systems and conditions and comparison of them; (5) a right choice for our requirement and a way to improve the model; (6) a method to calculate the confidence level of the result by uncertainty estimation.Empirical research shows that the karyogram is ordered as a whole, so preprocessing such as rotation and folding is not appropriate. It is more rea- sonable to choose noise or blur. In the experiment, two neural networks based on VGG16 and InceptionV3 were established using transfer learning and com- pared their effects under different conditions. We hope to minimize the error of assuming normal cases because we cannot accept that abnormal chromo- somes are predicted as normal cases. This thesis describes how to use Monte Carlo Dropout to do uncertainty estimation like a non-Bayesian model[1]. === Kromosombaserad genetisk diagnostik, detektering av specifika kromosomer, kommer att spela en allt viktigare roll inom medicin eftersom den molekylära grunden för mänsklig sjukdom definieras. Den nuvarande diagnostiska pro- cessen utförs huvudsakligen av specialister på karyotypning. De sätter först kromosomer i par och genererar en bild som listar alla kromosompar i ord- ning. Denna process kallas karyotypning, och den genererade bilden kallas karyogram. Därefter analyserar de bilderna baserat på former, storlek och för- hållanden för olika bildsegment och fattar sedan diagnostiska beslut.Denna avhandling undersöker övervakade metoder för genetisk diagnostik på karyogram. Huvudsakligen riktar teorin sig mot onormal detektion och ger förtroendet för resultatet i kromosomdomänen. Manuell inspektion är tidskrä- vande, arbetskrävande och felbenägen. Denna uppsats syftar till att dela in kro- mosombilder i normala och onormala kategorier och ge konfidensnivån. Dess huvudsakliga bidrag är (1) en empirisk studie av kromosom och karyotyp- ning; (2) lämplig förbehandling av data; (3) Neurala nätverk byggs med hjälp av transfer learning; (4) experiment på olika system och förhållanden och jäm- förelse av dem; (5) ett rätt val för vårt krav och ett sätt att förbättra modellen;    en metod för att beräkna resultatets konfidensnivå genom osäkerhetsupp- skattning.    Empirisk forskning visar att karyogrammet är ordnat som en helhet, så förbehandling som rotation och vikning är inte lämpligt. Det är rimligare att välja brus, oskärpa etc. I experimentet upprättades två neurala nätverk base- rade på VGG16 och InceptionV3 med hjälp av transfer learning och jämförde deras effekter under olika förhållanden. När vi väljer utvärderingsindikatorer, eftersom vi inte kan acceptera att onormala kromosomer bedöms förväntas, hoppas vi att minimera felet att anta som vanligt. Denna avhandling beskriver hur man använder Monte Carlo Dropout för att göra osäkerhetsberäkningar som en icke-Bayesisk modell [1].
author Chu, Gongchang
author_facet Chu, Gongchang
author_sort Chu, Gongchang
title Machine Learning for Automation of Chromosome based Genetic Diagnostics
title_short Machine Learning for Automation of Chromosome based Genetic Diagnostics
title_full Machine Learning for Automation of Chromosome based Genetic Diagnostics
title_fullStr Machine Learning for Automation of Chromosome based Genetic Diagnostics
title_full_unstemmed Machine Learning for Automation of Chromosome based Genetic Diagnostics
title_sort machine learning for automation of chromosome based genetic diagnostics
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2020
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-286284
work_keys_str_mv AT chugongchang machinelearningforautomationofchromosomebasedgeneticdiagnostics
AT chugongchang maskininlarningforautomatiseringavkromosombaseradgenetiskdiagnostik
_version_ 1719360413073670144
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2862842020-11-25T05:31:45ZMachine Learning for Automation of Chromosome based Genetic DiagnosticsengMaskininlärning för automatisering av kromosombaserad genetisk diagnostikChu, GongchangKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Genetic DiagnosticsAbnormality DetectionTransfer LearningDeep LearningUncertainty EstimationGenetisk diagnosonormal detektionöverföringsinlärningdjupinlärningosäkerhetsuppskattningComputer and Information SciencesData- och informationsvetenskapChromosome based genetic diagnostics, the detection of specific chromosomes, plays an increasingly important role in medicine as the molecular basis of hu- man disease is defined. The current diagnostic process is performed mainly by karyotyping specialists. They first put chromosomes in pairs and generate an image listing all the chromosome pairs in order. This process is called kary- otyping, and the generated image is called karyogram. Then they analyze the images based on the shapes, size, and relationships of different image segments and then make diagnostic decisions. Manual inspection is time-consuming, labor-intensive, and error-prone.This thesis investigates supervised methods for genetic diagnostics on karyo- grams. Mainly, the theory targets abnormality detection and gives the confi- dence of the result in the chromosome domain. This thesis aims to divide chromosome pictures into normal and abnormal categories and give the con- fidence level. The main contributions of this thesis are (1) an empirical study of chromosome and karyotyping; (2) appropriate data preprocessing; (3) neu- ral networks building by using transfer learning; (4) experiments on different systems and conditions and comparison of them; (5) a right choice for our requirement and a way to improve the model; (6) a method to calculate the confidence level of the result by uncertainty estimation.Empirical research shows that the karyogram is ordered as a whole, so preprocessing such as rotation and folding is not appropriate. It is more rea- sonable to choose noise or blur. In the experiment, two neural networks based on VGG16 and InceptionV3 were established using transfer learning and com- pared their effects under different conditions. We hope to minimize the error of assuming normal cases because we cannot accept that abnormal chromo- somes are predicted as normal cases. This thesis describes how to use Monte Carlo Dropout to do uncertainty estimation like a non-Bayesian model[1]. Kromosombaserad genetisk diagnostik, detektering av specifika kromosomer, kommer att spela en allt viktigare roll inom medicin eftersom den molekylära grunden för mänsklig sjukdom definieras. Den nuvarande diagnostiska pro- cessen utförs huvudsakligen av specialister på karyotypning. De sätter först kromosomer i par och genererar en bild som listar alla kromosompar i ord- ning. Denna process kallas karyotypning, och den genererade bilden kallas karyogram. Därefter analyserar de bilderna baserat på former, storlek och för- hållanden för olika bildsegment och fattar sedan diagnostiska beslut.Denna avhandling undersöker övervakade metoder för genetisk diagnostik på karyogram. Huvudsakligen riktar teorin sig mot onormal detektion och ger förtroendet för resultatet i kromosomdomänen. Manuell inspektion är tidskrä- vande, arbetskrävande och felbenägen. Denna uppsats syftar till att dela in kro- mosombilder i normala och onormala kategorier och ge konfidensnivån. Dess huvudsakliga bidrag är (1) en empirisk studie av kromosom och karyotyp- ning; (2) lämplig förbehandling av data; (3) Neurala nätverk byggs med hjälp av transfer learning; (4) experiment på olika system och förhållanden och jäm- förelse av dem; (5) ett rätt val för vårt krav och ett sätt att förbättra modellen;    en metod för att beräkna resultatets konfidensnivå genom osäkerhetsupp- skattning.    Empirisk forskning visar att karyogrammet är ordnat som en helhet, så förbehandling som rotation och vikning är inte lämpligt. Det är rimligare att välja brus, oskärpa etc. I experimentet upprättades två neurala nätverk base- rade på VGG16 och InceptionV3 med hjälp av transfer learning och jämförde deras effekter under olika förhållanden. När vi väljer utvärderingsindikatorer, eftersom vi inte kan acceptera att onormala kromosomer bedöms förväntas, hoppas vi att minimera felet att anta som vanligt. Denna avhandling beskriver hur man använder Monte Carlo Dropout för att göra osäkerhetsberäkningar som en icke-Bayesisk modell [1]. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-286284TRITA-EECS-EX ; 2020:832application/pdfinfo:eu-repo/semantics/openAccess