Exploring connectivity patterns in cancer proteins with machine learning

Proteins are among the most versatile organic macromolecules essential for living systems and present in almost all biological processes. Cancer is associated with mutations that either enhance or disrupt the conformation of proteins. These mutations have been shown to accumulate in specific regions...

Full description

Bibliographic Details
Main Author: Bergendal, Knut-Rasmus
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-305019
Description
Summary:Proteins are among the most versatile organic macromolecules essential for living systems and present in almost all biological processes. Cancer is associated with mutations that either enhance or disrupt the conformation of proteins. These mutations have been shown to accumulate in specific regions of a proteins three dimensional structure. In this thesis, the aim is to find connections that secondary structure elements make and explore them using a self-organizing map (SOM). The detection of these connections is done by first mapping the three-dimensional structure onto a novice type of distance matrix that also incorporates chemical information, and then deploying a density-based clustering algorithm. The connections found are mapped onto the SOM and later analyzed in order to see if highly mutated connections are more common among certain SOM-nodes. This was tested with an ANOVA that indicated that there are indeed mutational asymmetries among the nodes. By further analyzing the map it could also be stated that certain nodes were to a large extent activated by connections from genes associated with cancer.  === Proteiner tillhör några av de mest mångsidiga organiska makromolekylerna, och är direkt nödvändiga för alla levande system och biologiska processer. Cancer orsakas av mutationer som antingen förstärker eller stör strukturen hos proteinet. Dessa mutationer tenderar att att samlas i specifika områden av proteinets tredimensionella struktur. I den här rapporten är målet att hitta kopplingar som sekundärstrukturselement skapar, och utforska dem med hjälp av en självorganiserande karta. Dessa kopplingar finnes genom att först skapa en tvådimensionell representation av proteinets tredimensionella struktur, och sedan använda en densitetsbaserad klustringsalgoritm. De funna kopplingarna mappas till de olika neuronerna i kartan och analyseras sedan för att se om kopplingar med hög mutationsnivå är mer vanliga hos vissa neuron. För att undersöka detta användes ett ANOVA-test som visade att så var fallet. Genom att ytterligare studera kartan upptäcktes fynd som indikerade att vissa neuron i högre utsträckning var aktiverade av kopplingar som härstammar från gener vi vet är associerade med cancer.