Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress

À l'ère de la biologie computationnelle, l'annotation fonctionnelle reste un défi central. Les méthodes d’annotation récentes reposent sur l’hypothèse d’association par culpabilité et s’appuient sur l’intégration de données pour la recherche de partenaires fonctionnels. Cependant, la major...

Full description

Bibliographic Details
Main Author: Zaag, Rim
Other Authors: Université Paris-Saclay (ComUE)
Language:fr
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016SACLE013/document
id ndltd-theses.fr-2016SACLE013
record_format oai_dc
spelling ndltd-theses.fr-2016SACLE0132020-02-03T15:24:34Z Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress Enrichment of transcription profiles by integration of heterogeneous data : functional annotation of Arabidospis thaliana genes involved in stress responses Annotation fonctionnelle Réseaux de gènes À l'ère de la biologie computationnelle, l'annotation fonctionnelle reste un défi central. Les méthodes d’annotation récentes reposent sur l’hypothèse d’association par culpabilité et s’appuient sur l’intégration de données pour la recherche de partenaires fonctionnels. Cependant, la majorité de ces méthodes souffrent de l’hétérogénéité des données et du manque de spécificité du contexte biologique ce qui expliquerait un taux élevé de faux positifs parmi les prédictions. Ce travail de thèse développe une approche intégrative de données moléculaires contrôlant leur hétérogénéité pour annoter des gènes d’Arabidopsis thaliana impliqués dans la réponse aux stress. Les contributions majeures de cette thèse sont: (1) l'annotation fonctionnelle de groupes de gènes coexprimés par l'intégration de données omiques (2) la construction d'un réseau de corégulation par une analyse transversale des groupes coexprimés qui renforce les liens fonctionnels entre les gènes. (3) le développement d’une méthode d’apprentissage supervisé pour l’inférence de fonction centrée sur les termes de la GO Slim en contrôlant le FDR. En identifiant une règle de décision par terme, cette méthode a permis de prédire la fonction de 47 gènes partiellement annotés ou orphelins. In the era of computational biology, functional annotation remains a major challenge. Recent annotation methods are based on the guilt by association assumption and rely on data integration to identify functional partners. However, most of these methods suffer from data heterogeneity and a lack of biological context specificity which would probably explain the high rate of false positives among predictions. This thesis develops an approach of molecular data integration controlling their heterogeneity in order to annotate Arabidopsis thaliana genes involved in stress response. The major contributions of this thesis are: (1) functional annotation of groups of co-expressed genes by omics data integration (2) the construction of a coregulatory gene network through a cross-analysis of the coexpressed groups strengthening the functional links between genes (3) the development of a supervised learning method for the inference of gene function centered on the GO Slim terms with a control of the FDR. By identifying a decision rule by term, this method was used to predict the function of 47 orphan or partially annotated genes. Electronic Thesis or Dissertation Text Image StillImage fr http://www.theses.fr/2016SACLE013/document Zaag, Rim 2016-06-20 Université Paris-Saclay (ComUE) Martin-Magniette, Marie-Laure Delannoy, Etienne
collection NDLTD
language fr
sources NDLTD
topic Annotation fonctionnelle
Réseaux de gènes

spellingShingle Annotation fonctionnelle
Réseaux de gènes

Zaag, Rim
Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress
description À l'ère de la biologie computationnelle, l'annotation fonctionnelle reste un défi central. Les méthodes d’annotation récentes reposent sur l’hypothèse d’association par culpabilité et s’appuient sur l’intégration de données pour la recherche de partenaires fonctionnels. Cependant, la majorité de ces méthodes souffrent de l’hétérogénéité des données et du manque de spécificité du contexte biologique ce qui expliquerait un taux élevé de faux positifs parmi les prédictions. Ce travail de thèse développe une approche intégrative de données moléculaires contrôlant leur hétérogénéité pour annoter des gènes d’Arabidopsis thaliana impliqués dans la réponse aux stress. Les contributions majeures de cette thèse sont: (1) l'annotation fonctionnelle de groupes de gènes coexprimés par l'intégration de données omiques (2) la construction d'un réseau de corégulation par une analyse transversale des groupes coexprimés qui renforce les liens fonctionnels entre les gènes. (3) le développement d’une méthode d’apprentissage supervisé pour l’inférence de fonction centrée sur les termes de la GO Slim en contrôlant le FDR. En identifiant une règle de décision par terme, cette méthode a permis de prédire la fonction de 47 gènes partiellement annotés ou orphelins. === In the era of computational biology, functional annotation remains a major challenge. Recent annotation methods are based on the guilt by association assumption and rely on data integration to identify functional partners. However, most of these methods suffer from data heterogeneity and a lack of biological context specificity which would probably explain the high rate of false positives among predictions. This thesis develops an approach of molecular data integration controlling their heterogeneity in order to annotate Arabidopsis thaliana genes involved in stress response. The major contributions of this thesis are: (1) functional annotation of groups of co-expressed genes by omics data integration (2) the construction of a coregulatory gene network through a cross-analysis of the coexpressed groups strengthening the functional links between genes (3) the development of a supervised learning method for the inference of gene function centered on the GO Slim terms with a control of the FDR. By identifying a decision rule by term, this method was used to predict the function of 47 orphan or partially annotated genes.
author2 Université Paris-Saclay (ComUE)
author_facet Université Paris-Saclay (ComUE)
Zaag, Rim
author Zaag, Rim
author_sort Zaag, Rim
title Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress
title_short Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress
title_full Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress
title_fullStr Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress
title_full_unstemmed Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress
title_sort enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'arabidopsis thaliana impliqués dans la réponse aux stress
publishDate 2016
url http://www.theses.fr/2016SACLE013/document
work_keys_str_mv AT zaagrim enrichissementdeprofilstranscriptomiquesparintegrationdedonneesheterogenesannotationfonctionnelledegenesdarabidopsisthalianaimpliquesdanslareponseauxstress
AT zaagrim enrichmentoftranscriptionprofilesbyintegrationofheterogeneousdatafunctionalannotationofarabidospisthalianagenesinvolvedinstressresponses
_version_ 1719311245355515904