Deconvolution of PPI networks: approximation algorithms and optimization techniques
Understanding the organization of protein-protein interactions (PPIs) as a complex network is one of the main pursuits in proteomics today. With the help of high-throughput experimental techniques, a large amount of PPI data has become available, providing us a rough picture of how proteins interact...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | en |
Published: |
McGill University
2012
|
Subjects: | |
Online Access: | http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=110438 |
id |
ndltd-LACETR-oai-collectionscanada.gc.ca-QMM.110438 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
en |
format |
Others
|
sources |
NDLTD |
topic |
Applied Sciences - Computer Science |
spellingShingle |
Applied Sciences - Computer Science Kim, Dong Hyun Deconvolution of PPI networks: approximation algorithms and optimization techniques |
description |
Understanding the organization of protein-protein interactions (PPIs) as a complex network is one of the main pursuits in proteomics today. With the help of high-throughput experimental techniques, a large amount of PPI data has become available, providing us a rough picture of how proteins interact in biological systems. One of the leading technologies for identifying protein interactions is affinity-purification followed by mass spectrometry (AP-MS). While the AP-MS method provides the ability to detect protein interactions at biologically reasonable expression levels, this technique still suffers from poor accuracy as well as lack of sound approach to interpret the obtained interaction data.In this thesis, we look for sources of systematic errors and limitations of the data from AP-MS experiments, and propose several approaches for improvements. In particular, we identify various problems that arise within the experimental pipeline, and propose combinatorial algorithms developed using the theory of approximationalgorithms and discrete mathematics. The first part of the thesis deals with quantification of proteins from MS-based experiments. Existing approaches for protein quantification often use each detected peptide as an indicator for the originating protein. These approaches ignore peptides that belong to more than one protein family. We attack this problem of protein quantification by taking these shared peptides into consideration, and propose a framework for estimating protein abundance via linear programming.In AP-MS data, the identified protein interactions contain a large number of indirect interactions as artifacts from a series of simultaneous physical interactions. The second part of this thesis studies the problem of distinguishing direct physical interactions from indirect interactions. To do this, we first propose a probabilistic graph model for the PPI data, and design a combinatorial algorithm suited for graphs with underlying structure that is evident in PPI networks.While the traditional model for PPI networks is a binary graph representing pairwise interactions, a large number of interactions involve more than two interaction partners. Such collections of proteins interacting concertedly are known as protein complexes, and various approaches have been proposed to identify the complexes in the network. When these complexes are overlapping, however, the existing complex detection methods often fail to identify the constituent complexes. Taking one step further on this line of research, the last part of this thesis discusses the problem of modelling PPI networks as hypergraphs by studying the clique cover problem on sparse networks. For each problem discussed throughout the thesis, we obtain either an exact algorithm, an algorithm with provably good guarantee on the output quality, or a heuristic with efficient running time. Furthermore, each of the proposed algorithms is empirically tested against biological data as well as simulated data, in order to validate both computational efficiency and biological soundness. === Comprendre l'organisation des interactions protéine-protéine (IPP) en tant que réseau complexe est un des plus grands problèmes de la protéomique moderne. Avec l'aide de techniques expérimentales à haut débit, une grand quantité de données de IPP est devenue disponible, nous procurant ainsi une image approximative du fonctionnement des interactions entre protéines dans des systèmes biologiques. Une des technologies de fine pointe pour identifier des interactions protéiques est la purification d'affinité suivie de la spectrométrie de masse (PA-SM). Même si la méthode de PA-SM nous permet de détecter des interactions de protéines à des niveaux d'expression raisonnables biologiquement, cette technique souffre encore d'une précision déficiente et d'un manque d'une approche saine pour interpréter les résultats d'interactions obtenus par celle-ci.Dans cette thèse, nous cherchons des sources d'erreurs systématiques et des limites des données provenant d'expériences PA-SM et nous proposons plusieurs approches amenant des améliorations. En particulier, nous identifions divers problèmes présents dans la procédure expérimentale et proposons des algorithmes combinatoires développés en utilisant la théorie des algorithmes d'approximation et des mathématiques discrètes. La première partie de la thèse étudie la quantification des protéines provenant d'une expérience basée sur la spectrométrie de masse. Les approches existantes pour la quantification de protéines utilisent souvent chaque peptide détecté comme un indicateur de la protéine d'origine. Ces approches ignorent les peptides qui appartiennent à plus d'une protéines. Nous attaquons ce problème de quantification de protéines en prenant ces peptides partagés en considération et proposons un cadre de travail pour estimer l'abondance des protéines via la programmation linéaire.Les interactions de protéines identifiées dans les données de PA-SM contiennent un grand nombre d'interactions indirectes qui sont des artéfacts d'une série d'interactions physiques simultanées. La seconde partie de cette thèse étudie le problème de distinction des interactions physiques directes de celles qui sont indirectes. Pour ce faire, nous proposons premièrement un modèle d'un graphe probabiliste pour les données de IPPs et concevons un algorithme combinatoire adapté aux graphes ayant des propriétés observées dans de vrais réseaux de IPPs.Malgré le fait que le modèle traditionnel des réseaux de IPPs est un graphe binaire représentant les interactions par paires, un grand nombre d'interactions impliquent plus de deux partenaires d'interaction. De tels groupes de protéines interagissant de concert se nomment des complexes de protéines. Plusieurs approches ont déjà été proposées afin d'identifier les complexes dans un réseau. Cependant, lorsque ces complexes se chevauchent, les méthodes existantes échouent. La dernière partie de cette thèse discute du problème de modélisation des réseaux de IPPs comme des hypergraphes en étudiant le problème de couverture par cliques sur des réseaux clairsemés.Pour chaque problème discuté au cours de cette thèse, nous obtenons un algorithme exact, un algorithme avec de bonnes garanties prouvables sur la qualité de la sortie, ou une heuristique avec un temps d'exécution efficient. De plus, chaque algorithme proposé est testé empiriquement avec des données biologiques et simulées dans le but de valider l'efficience computationnelle et la signification biologique. |
author2 |
Adrian Roshan Vetta (Supervisor2) |
author_facet |
Adrian Roshan Vetta (Supervisor2) Kim, Dong Hyun |
author |
Kim, Dong Hyun |
author_sort |
Kim, Dong Hyun |
title |
Deconvolution of PPI networks: approximation algorithms and optimization techniques |
title_short |
Deconvolution of PPI networks: approximation algorithms and optimization techniques |
title_full |
Deconvolution of PPI networks: approximation algorithms and optimization techniques |
title_fullStr |
Deconvolution of PPI networks: approximation algorithms and optimization techniques |
title_full_unstemmed |
Deconvolution of PPI networks: approximation algorithms and optimization techniques |
title_sort |
deconvolution of ppi networks: approximation algorithms and optimization techniques |
publisher |
McGill University |
publishDate |
2012 |
url |
http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=110438 |
work_keys_str_mv |
AT kimdonghyun deconvolutionofppinetworksapproximationalgorithmsandoptimizationtechniques |
_version_ |
1716644014042644480 |
spelling |
ndltd-LACETR-oai-collectionscanada.gc.ca-QMM.1104382014-02-13T04:02:58ZDeconvolution of PPI networks: approximation algorithms and optimization techniquesKim, Dong HyunApplied Sciences - Computer ScienceUnderstanding the organization of protein-protein interactions (PPIs) as a complex network is one of the main pursuits in proteomics today. With the help of high-throughput experimental techniques, a large amount of PPI data has become available, providing us a rough picture of how proteins interact in biological systems. One of the leading technologies for identifying protein interactions is affinity-purification followed by mass spectrometry (AP-MS). While the AP-MS method provides the ability to detect protein interactions at biologically reasonable expression levels, this technique still suffers from poor accuracy as well as lack of sound approach to interpret the obtained interaction data.In this thesis, we look for sources of systematic errors and limitations of the data from AP-MS experiments, and propose several approaches for improvements. In particular, we identify various problems that arise within the experimental pipeline, and propose combinatorial algorithms developed using the theory of approximationalgorithms and discrete mathematics. The first part of the thesis deals with quantification of proteins from MS-based experiments. Existing approaches for protein quantification often use each detected peptide as an indicator for the originating protein. These approaches ignore peptides that belong to more than one protein family. We attack this problem of protein quantification by taking these shared peptides into consideration, and propose a framework for estimating protein abundance via linear programming.In AP-MS data, the identified protein interactions contain a large number of indirect interactions as artifacts from a series of simultaneous physical interactions. The second part of this thesis studies the problem of distinguishing direct physical interactions from indirect interactions. To do this, we first propose a probabilistic graph model for the PPI data, and design a combinatorial algorithm suited for graphs with underlying structure that is evident in PPI networks.While the traditional model for PPI networks is a binary graph representing pairwise interactions, a large number of interactions involve more than two interaction partners. Such collections of proteins interacting concertedly are known as protein complexes, and various approaches have been proposed to identify the complexes in the network. When these complexes are overlapping, however, the existing complex detection methods often fail to identify the constituent complexes. Taking one step further on this line of research, the last part of this thesis discusses the problem of modelling PPI networks as hypergraphs by studying the clique cover problem on sparse networks. For each problem discussed throughout the thesis, we obtain either an exact algorithm, an algorithm with provably good guarantee on the output quality, or a heuristic with efficient running time. Furthermore, each of the proposed algorithms is empirically tested against biological data as well as simulated data, in order to validate both computational efficiency and biological soundness.Comprendre l'organisation des interactions protéine-protéine (IPP) en tant que réseau complexe est un des plus grands problèmes de la protéomique moderne. Avec l'aide de techniques expérimentales à haut débit, une grand quantité de données de IPP est devenue disponible, nous procurant ainsi une image approximative du fonctionnement des interactions entre protéines dans des systèmes biologiques. Une des technologies de fine pointe pour identifier des interactions protéiques est la purification d'affinité suivie de la spectrométrie de masse (PA-SM). Même si la méthode de PA-SM nous permet de détecter des interactions de protéines à des niveaux d'expression raisonnables biologiquement, cette technique souffre encore d'une précision déficiente et d'un manque d'une approche saine pour interpréter les résultats d'interactions obtenus par celle-ci.Dans cette thèse, nous cherchons des sources d'erreurs systématiques et des limites des données provenant d'expériences PA-SM et nous proposons plusieurs approches amenant des améliorations. En particulier, nous identifions divers problèmes présents dans la procédure expérimentale et proposons des algorithmes combinatoires développés en utilisant la théorie des algorithmes d'approximation et des mathématiques discrètes. La première partie de la thèse étudie la quantification des protéines provenant d'une expérience basée sur la spectrométrie de masse. Les approches existantes pour la quantification de protéines utilisent souvent chaque peptide détecté comme un indicateur de la protéine d'origine. Ces approches ignorent les peptides qui appartiennent à plus d'une protéines. Nous attaquons ce problème de quantification de protéines en prenant ces peptides partagés en considération et proposons un cadre de travail pour estimer l'abondance des protéines via la programmation linéaire.Les interactions de protéines identifiées dans les données de PA-SM contiennent un grand nombre d'interactions indirectes qui sont des artéfacts d'une série d'interactions physiques simultanées. La seconde partie de cette thèse étudie le problème de distinction des interactions physiques directes de celles qui sont indirectes. Pour ce faire, nous proposons premièrement un modèle d'un graphe probabiliste pour les données de IPPs et concevons un algorithme combinatoire adapté aux graphes ayant des propriétés observées dans de vrais réseaux de IPPs.Malgré le fait que le modèle traditionnel des réseaux de IPPs est un graphe binaire représentant les interactions par paires, un grand nombre d'interactions impliquent plus de deux partenaires d'interaction. De tels groupes de protéines interagissant de concert se nomment des complexes de protéines. Plusieurs approches ont déjà été proposées afin d'identifier les complexes dans un réseau. Cependant, lorsque ces complexes se chevauchent, les méthodes existantes échouent. La dernière partie de cette thèse discute du problème de modélisation des réseaux de IPPs comme des hypergraphes en étudiant le problème de couverture par cliques sur des réseaux clairsemés.Pour chaque problème discuté au cours de cette thèse, nous obtenons un algorithme exact, un algorithme avec de bonnes garanties prouvables sur la qualité de la sortie, ou une heuristique avec un temps d'exécution efficient. De plus, chaque algorithme proposé est testé empiriquement avec des données biologiques et simulées dans le but de valider l'efficience computationnelle et la signification biologique.McGill UniversityAdrian Roshan Vetta (Supervisor2)Mathieu Blanchette (Supervisor1)2012Electronic Thesis or Dissertationapplication/pdfenElectronically-submitted theses.All items in eScholarship@McGill are protected by copyright with all rights reserved unless otherwise indicated.Doctor of Philosophy (School of Computer Science) http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=110438 |