Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe

Identifier rapidement le contenu microbien d’un échantillon biologique complexe constitue un enjeu majeur en biodéfense et dans les domaines concernant la santé humaine, les biotechnologies et l’environnement. La spectrométrie de masse en tandem (MS/MS) permet de sonder le contenu protéique d’un éch...

Full description

Bibliographic Details
Main Author: Allain, François
Other Authors: Rouen, INSA
Language:fr
Published: 2014
Subjects:
Online Access:http://www.theses.fr/2014ISAM0010
id ndltd-theses.fr-2014ISAM0010
record_format oai_dc
collection NDLTD
language fr
sources NDLTD
topic Spectroscopie de masse
Microorganismes
Echantillon complexe

spellingShingle Spectroscopie de masse
Microorganismes
Echantillon complexe

Allain, François
Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe
description Identifier rapidement le contenu microbien d’un échantillon biologique complexe constitue un enjeu majeur en biodéfense et dans les domaines concernant la santé humaine, les biotechnologies et l’environnement. La spectrométrie de masse en tandem (MS/MS) permet de sonder le contenu protéique d’un échantillon avec précision. Ce travail de thèse porte sur le développement d’un nouveau concept d’interprétation des données de spectrométrie de masse MS/MS à des fins d’identification sans a priori du contenu microbien d’un échantillon à l’aide de bases de données protéiques généralistes. L’approche d’identification se base (i) sur la base de données actuelle la plus exhaustive, et (ii) sur un algorithme d’interprétation de spectres MS/MS. Une architecture informatique a été développée afin de regrouper les résultats MS/MS selon la taxonomie des organismes vivants tout en veillant à minimiser le temps de traitement nécessaire et à maximiser le taux d’attribution de spectres MS/MS. Une stratégie d’identification récursive à travers l’arbre taxonomique basée sur le nombre de spectres spécifiques associés à chaque taxon est possible, mais ne permet pas d’identifier avec confiance le contenu d’un échantillon multi-organismes séquencés. Le concept innovant développé a permis d’établir une corrélation entre le nombre de spectres attribués à un taxon et la distance phylogénétique de ce taxon au taxon de l’organisme présent dans le cas d’un échantillon mono-organisme séquencé. Cette corrélation permet de modéliser et de déterminer la présence de tout organisme séquencé dans un échantillon multi-organismes. Un outil automatique d’estimation de distances phylogénétiques entre taxons a donc été mis au point, basé sur l’ajout de nouveaux organismes à un alignement multiple de séquences de référence composé de 31 familles de protéines universelles pour des organismes des 3 domaines du vivants (bactéries, archées, eucaryotes). Enfin, deux algorithmes d’identification du contenu d’un échantillon multi-organismes séquencés ont été évalués : un algorithme glouton naïf basé sur une heuristique et un algorithme résolvant un problème d’optimisation non-convexe de manière itérative utilisant un terme de régularisation pondéré de norme ℓ1. === The rapid identification of the microbial content of a complex biological sample is a major issue in biodefense and in areas related to human health, biotechnology and the environment. Tandem mass spectrometry (MS/MS) enables accurate profiling of the protein content of a sample. This thesis focuses on the development of a new concept in MS/MS data interpretation to identify the microbial content of a sample using general protein databases without prior knowledge of the target. The identification approach is based on (i) the most extensive protein database currently available and (ii) an MS/MS spectra interpretation algorithm. A dedicated computer architecture has been developed to combine the MS/MS results according to the taxonomy of living organisms while minimizing the required processing time and maximizing the MS/MS spectra assignment rate. A recursive identification strategy across the taxonomic tree based on the number of specific spectra associated with each taxon is possible but does not confidently identify the contents of a sample containing multiple sequenced organisms. The innovative concept developed here enables the correlation of the number of spectra assigned to a given taxon and the phylogenetic distances between this taxon and the taxon of the organism present in the case of a sample containing a single sequenced organism. This correlation allows us to model and determine the presence of any sequenced organism in a sample containing multiple organisms. An automatic tool for estimating phylogenetic distances between taxa has been developed. This tool is based on the addition of new organisms to a multiple sequence alignment comprising 31 families of universal proteins from organisms from all 3 domains of life (Bacteria, Archaea, Eukarya). Finally, two algorithms for identifying multiple organisms from a single sample have been assessed : a naive greedy algorithm based on a heuristic and an iterative algorithm that solves a non-convex optimization problem using a weighted ℓ1 norm regularization term.
author2 Rouen, INSA
author_facet Rouen, INSA
Allain, François
author Allain, François
author_sort Allain, François
title Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe
title_short Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe
title_full Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe
title_fullStr Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe
title_full_unstemmed Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe
title_sort nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe
publishDate 2014
url http://www.theses.fr/2014ISAM0010
work_keys_str_mv AT allainfrancois nouvellemethodedinterpretationdedonneesdespectrometriedemasseentandempourlidentificationdemicroorganismesdansunechantilloncomplexe
AT allainfrancois novelinterpretationmethodoftandemmassspectrometrydataformicroorganismsidentificationinacomplexsample
_version_ 1718488675942137856
spelling ndltd-theses.fr-2014ISAM00102017-07-01T04:39:22Z Nouvelle méthode d’interprétation de données de spectrométrie de masse en tandem pour l’identification de microorganismes dans un échantillon complexe Novel interpretation method of tandem mass spectrometry data for microorganisms identification in a complex sample Spectroscopie de masse Microorganismes Echantillon complexe Identifier rapidement le contenu microbien d’un échantillon biologique complexe constitue un enjeu majeur en biodéfense et dans les domaines concernant la santé humaine, les biotechnologies et l’environnement. La spectrométrie de masse en tandem (MS/MS) permet de sonder le contenu protéique d’un échantillon avec précision. Ce travail de thèse porte sur le développement d’un nouveau concept d’interprétation des données de spectrométrie de masse MS/MS à des fins d’identification sans a priori du contenu microbien d’un échantillon à l’aide de bases de données protéiques généralistes. L’approche d’identification se base (i) sur la base de données actuelle la plus exhaustive, et (ii) sur un algorithme d’interprétation de spectres MS/MS. Une architecture informatique a été développée afin de regrouper les résultats MS/MS selon la taxonomie des organismes vivants tout en veillant à minimiser le temps de traitement nécessaire et à maximiser le taux d’attribution de spectres MS/MS. Une stratégie d’identification récursive à travers l’arbre taxonomique basée sur le nombre de spectres spécifiques associés à chaque taxon est possible, mais ne permet pas d’identifier avec confiance le contenu d’un échantillon multi-organismes séquencés. Le concept innovant développé a permis d’établir une corrélation entre le nombre de spectres attribués à un taxon et la distance phylogénétique de ce taxon au taxon de l’organisme présent dans le cas d’un échantillon mono-organisme séquencé. Cette corrélation permet de modéliser et de déterminer la présence de tout organisme séquencé dans un échantillon multi-organismes. Un outil automatique d’estimation de distances phylogénétiques entre taxons a donc été mis au point, basé sur l’ajout de nouveaux organismes à un alignement multiple de séquences de référence composé de 31 familles de protéines universelles pour des organismes des 3 domaines du vivants (bactéries, archées, eucaryotes). Enfin, deux algorithmes d’identification du contenu d’un échantillon multi-organismes séquencés ont été évalués : un algorithme glouton naïf basé sur une heuristique et un algorithme résolvant un problème d’optimisation non-convexe de manière itérative utilisant un terme de régularisation pondéré de norme ℓ1. The rapid identification of the microbial content of a complex biological sample is a major issue in biodefense and in areas related to human health, biotechnology and the environment. Tandem mass spectrometry (MS/MS) enables accurate profiling of the protein content of a sample. This thesis focuses on the development of a new concept in MS/MS data interpretation to identify the microbial content of a sample using general protein databases without prior knowledge of the target. The identification approach is based on (i) the most extensive protein database currently available and (ii) an MS/MS spectra interpretation algorithm. A dedicated computer architecture has been developed to combine the MS/MS results according to the taxonomy of living organisms while minimizing the required processing time and maximizing the MS/MS spectra assignment rate. A recursive identification strategy across the taxonomic tree based on the number of specific spectra associated with each taxon is possible but does not confidently identify the contents of a sample containing multiple sequenced organisms. The innovative concept developed here enables the correlation of the number of spectra assigned to a given taxon and the phylogenetic distances between this taxon and the taxon of the organism present in the case of a sample containing a single sequenced organism. This correlation allows us to model and determine the presence of any sequenced organism in a sample containing multiple organisms. An automatic tool for estimating phylogenetic distances between taxa has been developed. This tool is based on the addition of new organisms to a multiple sequence alignment comprising 31 families of universal proteins from organisms from all 3 domains of life (Bacteria, Archaea, Eukarya). Finally, two algorithms for identifying multiple organisms from a single sample have been assessed : a naive greedy algorithm based on a heuristic and an iterative algorithm that solves a non-convex optimization problem using a weighted ℓ1 norm regularization term. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2014ISAM0010 Allain, François 2014-07-08 Rouen, INSA Armengaud, Jean Canu, Stéphane