Exploring connectivity patterns in cancer proteins with machine learning

Proteins are among the most versatile organic macromolecules essential for living systems and present in almost all biological processes. Cancer is associated with mutations that either enhance or disrupt the conformation of proteins. These mutations have been shown to accumulate in specific regions...

Full description

Bibliographic Details
Main Author: Bergendal, Knut-Rasmus
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-305019
id ndltd-UPSALLA1-oai-DiVA.org-kth-305019
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-3050192021-11-20T05:49:03ZExploring connectivity patterns in cancer proteins with machine learningengUtforskande av kopplingsmönster hos cancerproteiner med maskininlärningBergendal, Knut-RasmusKTH, Skolan för elektroteknik och datavetenskap (EECS)2021Self-Organizing mapmachine learningProtein conformationCancer mutationssjälvorganiserande kartamaskininlärningProteinstrukturCancermutationerComputer SciencesDatavetenskap (datalogi)Proteins are among the most versatile organic macromolecules essential for living systems and present in almost all biological processes. Cancer is associated with mutations that either enhance or disrupt the conformation of proteins. These mutations have been shown to accumulate in specific regions of a proteins three dimensional structure. In this thesis, the aim is to find connections that secondary structure elements make and explore them using a self-organizing map (SOM). The detection of these connections is done by first mapping the three-dimensional structure onto a novice type of distance matrix that also incorporates chemical information, and then deploying a density-based clustering algorithm. The connections found are mapped onto the SOM and later analyzed in order to see if highly mutated connections are more common among certain SOM-nodes. This was tested with an ANOVA that indicated that there are indeed mutational asymmetries among the nodes. By further analyzing the map it could also be stated that certain nodes were to a large extent activated by connections from genes associated with cancer.  Proteiner tillhör några av de mest mångsidiga organiska makromolekylerna, och är direkt nödvändiga för alla levande system och biologiska processer. Cancer orsakas av mutationer som antingen förstärker eller stör strukturen hos proteinet. Dessa mutationer tenderar att att samlas i specifika områden av proteinets tredimensionella struktur. I den här rapporten är målet att hitta kopplingar som sekundärstrukturselement skapar, och utforska dem med hjälp av en självorganiserande karta. Dessa kopplingar finnes genom att först skapa en tvådimensionell representation av proteinets tredimensionella struktur, och sedan använda en densitetsbaserad klustringsalgoritm. De funna kopplingarna mappas till de olika neuronerna i kartan och analyseras sedan för att se om kopplingar med hög mutationsnivå är mer vanliga hos vissa neuron. För att undersöka detta användes ett ANOVA-test som visade att så var fallet. Genom att ytterligare studera kartan upptäcktes fynd som indikerade att vissa neuron i högre utsträckning var aktiverade av kopplingar som härstammar från gener vi vet är associerade med cancer. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-305019TRITA-EECS-EX ; 2021:695application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Self-Organizing map
machine learning
Protein conformation
Cancer mutations
självorganiserande karta
maskininlärning
Proteinstruktur
Cancermutationer
Computer Sciences
Datavetenskap (datalogi)
spellingShingle Self-Organizing map
machine learning
Protein conformation
Cancer mutations
självorganiserande karta
maskininlärning
Proteinstruktur
Cancermutationer
Computer Sciences
Datavetenskap (datalogi)
Bergendal, Knut-Rasmus
Exploring connectivity patterns in cancer proteins with machine learning
description Proteins are among the most versatile organic macromolecules essential for living systems and present in almost all biological processes. Cancer is associated with mutations that either enhance or disrupt the conformation of proteins. These mutations have been shown to accumulate in specific regions of a proteins three dimensional structure. In this thesis, the aim is to find connections that secondary structure elements make and explore them using a self-organizing map (SOM). The detection of these connections is done by first mapping the three-dimensional structure onto a novice type of distance matrix that also incorporates chemical information, and then deploying a density-based clustering algorithm. The connections found are mapped onto the SOM and later analyzed in order to see if highly mutated connections are more common among certain SOM-nodes. This was tested with an ANOVA that indicated that there are indeed mutational asymmetries among the nodes. By further analyzing the map it could also be stated that certain nodes were to a large extent activated by connections from genes associated with cancer.  === Proteiner tillhör några av de mest mångsidiga organiska makromolekylerna, och är direkt nödvändiga för alla levande system och biologiska processer. Cancer orsakas av mutationer som antingen förstärker eller stör strukturen hos proteinet. Dessa mutationer tenderar att att samlas i specifika områden av proteinets tredimensionella struktur. I den här rapporten är målet att hitta kopplingar som sekundärstrukturselement skapar, och utforska dem med hjälp av en självorganiserande karta. Dessa kopplingar finnes genom att först skapa en tvådimensionell representation av proteinets tredimensionella struktur, och sedan använda en densitetsbaserad klustringsalgoritm. De funna kopplingarna mappas till de olika neuronerna i kartan och analyseras sedan för att se om kopplingar med hög mutationsnivå är mer vanliga hos vissa neuron. För att undersöka detta användes ett ANOVA-test som visade att så var fallet. Genom att ytterligare studera kartan upptäcktes fynd som indikerade att vissa neuron i högre utsträckning var aktiverade av kopplingar som härstammar från gener vi vet är associerade med cancer.
author Bergendal, Knut-Rasmus
author_facet Bergendal, Knut-Rasmus
author_sort Bergendal, Knut-Rasmus
title Exploring connectivity patterns in cancer proteins with machine learning
title_short Exploring connectivity patterns in cancer proteins with machine learning
title_full Exploring connectivity patterns in cancer proteins with machine learning
title_fullStr Exploring connectivity patterns in cancer proteins with machine learning
title_full_unstemmed Exploring connectivity patterns in cancer proteins with machine learning
title_sort exploring connectivity patterns in cancer proteins with machine learning
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-305019
work_keys_str_mv AT bergendalknutrasmus exploringconnectivitypatternsincancerproteinswithmachinelearning
AT bergendalknutrasmus utforskandeavkopplingsmonsterhoscancerproteinermedmaskininlarning
_version_ 1719494673850957824