Etude des éléments régulateurs de l'expression des gènes chez l'humain

L'expression des gènes est étroitement régulée par différentes régions régulatrices afin d'assurer une grande variété de types cellulaires et de fonctions. Identifier ces régions régulatrices actives, leurs caractéristiques et comprendre comment elles interagissent entre elles dans chaque...

Full description

Bibliographic Details
Main Author: Bessiere, Chloé
Other Authors: Montpellier
Language:fr
Published: 2018
Subjects:
Online Access:http://www.theses.fr/2018MONTT099/document
id ndltd-theses.fr-2018MONTT099
record_format oai_dc
collection NDLTD
language fr
sources NDLTD
topic Régulations génomiques
Modélisation de l'expression
ARNs non-Codants
Motifs
Cancers
Génétique et épigénétique
Genomic regulations
Expression modelling
Non-Coding RNA
Motifs
Cancers
Genetics and epigenetics
spellingShingle Régulations génomiques
Modélisation de l'expression
ARNs non-Codants
Motifs
Cancers
Génétique et épigénétique
Genomic regulations
Expression modelling
Non-Coding RNA
Motifs
Cancers
Genetics and epigenetics
Bessiere, Chloé
Etude des éléments régulateurs de l'expression des gènes chez l'humain
description L'expression des gènes est étroitement régulée par différentes régions régulatrices afin d'assurer une grande variété de types cellulaires et de fonctions. Identifier ces régions régulatrices actives, leurs caractéristiques et comprendre comment elles interagissent entre elles dans chaque type cellulaire est un enjeu majeur. Cette connaissance permettrait notamment de mieux comprendre l'impact des variants génomiques très souvent localisés dans les régions non-codantes. Par ailleurs, le développement de cancers et autres maladies est lié à des dérégulations des contrôles de l'expression des gènes. Pour pouvoir envisager des traitements ciblés et tendre vers une médecine de précision, il est important de comprendre comment toute cette machinerie est orchestrée.Plusieurs approches ont été développées pour répondre à cette question, la plupart basées sur des données expérimentales de modification d'histones, méthylation et facteurs de transcription (TFs). Cependant, ces données sont limitées à des échantillons spécifiques et ne peuvent pas être générées pour tous les régulateurs et tous les patients. Mes travaux de thèse ont porté, dans une première partie, sur la modélisation de l'expression des gènes uniquement à partir de l'information contenue dans la séquence ADN. Nous avons utilisé un modèle linéaire avec sélection de variables, équivalent en terme de performances à des méthodes non paramétriques et simple à interpréter. Ce modèle m'a permis de comparer plusieurs types de variables basées sur la séquence ADN, comme les motifs de fixation des TFs et la composition nucléotidique. Ces variables sont déterminées pour différentes régions du gène afin d'évaluer leur pouvoir régulateur et leur contribution. Les introns seuls, dont la composition nucléotidique reflète celle de l'environnement du gène, expliquent une part importante de la variation de l'expression des gènes. De plus, nous avons démontré que les domaines topologiques (TADs), dans lesquels les interactions sont favorisées, partagent une composition génomique similaire. Notre modèle de prédiction nous permet vraisemblablement de capturer, pour chaque individu, la composition des TADs actifs.Dans un second temps de mon travail, je me suis intéressée aux régulations pouvant survenir dans les introns. Le consortium international FANTOM a fourni un des atlas de sites de départ de la transcription (TSSs) les plus importants à ce jour et nous avons noté que la majorité d'entre eux sont détectés dans les régions non-codantes, notamment les introns. Nous avons donc entrepris un travail visant à explorer ces TSS introniques. Pour déterminer si ces TSSs sont fonctionnels, je me suis intéressée à la recherche de potentiels motifs régulateurs autour de ces signaux de transcription. Une fraction de ces signaux sont localisés 2 bases en aval d'une répétition de Thymidines (T). Des évidences biochimiques et génétiques suggèrent qu'au moins une partie de ces signaux correspondent à de longs ARNs non-codants sens-introniques exprimés de manière tissu-spécifique. Il semblerait également que la longueur des répétitions de Ts ait une influence sur la présence d'un signal de transcription au niveau de ces loci et, indirectement, sur l'expression du gène hôte. Ces observations offrent une possible base moléculaire à l'effet de ces courtes répétitions en tandem de T. === Genome expression is tightly controlled by different regulatory regions to provide a wide variety of cell types and functions. Identifying these regulatory regions, their characteristics and understand how they interact with each other in a tissue-specific manner is prime importance. This knowledge should help better understand the impact of genomic variants often located in non-coding regions. Besides, cancer development is invariably linked to deregulation of gene expression controls. To pave the way for targeted treatments and precision medicine, it is important to understand how all this machinery is orchestrated.To answer this question, several approaches were developed, most of them based on experimental data of histone modification, methylation and transcription factors (TFs). However, these data are limited to specific samples and cannot be generated for all the regulators and all the patients. First, my thesis research aimed at modeling gene expression based on DNA sequence only. We used a linear model with variable selection, equivalent in term of performances with non-parametric methods and easy to interpret. This model allowed me to compare several types of variables based on the DNA sequence, as TFs binding motifs and nucleotide composition. These variables are computed for various gene regions to estimate their regulatory power and contribution. Strikingly, introns, for which nucleotide composition reflects gene environment, appear to explain an important part of gene expression variation. Furthermore, we demonstrated that the topological domains (TADs), in which interactions are favored, share similar genomic compositions. Our prediction model presumably captures, for every individual, the composition of active TADs.A second aspect of my work studied the regulations occurring in introns. The international FANTOM consortium provided one of the most important transcription start sites (TSSs) atlas and we noticed that the majority of these TSSs are detected into non-coding regions, in particular introns. We thus investigated these intronic TSSs. To determine if these TSSs are functional, we searched for new potential regulatory motifs at the vicinity of these transcription signals. We found that a fraction of them is located 2 bases downstream of a repetition of Ts. Biochemical and genetic evidences suggest that at least part of these signals correspond to sense-intronic long non-coding RNAs, which are expressed in a tissue specific manner. The length of the T repetition also appears to govern the presence of a transcription signal at these loci and indirectly impact on host gene expression. These findings provide one possible molecular explanation for the effect of these short tandem repeats of Ts.
author2 Montpellier
author_facet Montpellier
Bessiere, Chloé
author Bessiere, Chloé
author_sort Bessiere, Chloé
title Etude des éléments régulateurs de l'expression des gènes chez l'humain
title_short Etude des éléments régulateurs de l'expression des gènes chez l'humain
title_full Etude des éléments régulateurs de l'expression des gènes chez l'humain
title_fullStr Etude des éléments régulateurs de l'expression des gènes chez l'humain
title_full_unstemmed Etude des éléments régulateurs de l'expression des gènes chez l'humain
title_sort etude des éléments régulateurs de l'expression des gènes chez l'humain
publishDate 2018
url http://www.theses.fr/2018MONTT099/document
work_keys_str_mv AT bessierechloe etudedeselementsregulateursdelexpressiondesgeneschezlhumain
AT bessierechloe studyofregulatoryelementsongeneexpressioninhumans
_version_ 1719299123549569024
spelling ndltd-theses.fr-2018MONTT0992019-11-29T04:50:48Z Etude des éléments régulateurs de l'expression des gènes chez l'humain Study of regulatory elements on gene expression in humans Régulations génomiques Modélisation de l'expression ARNs non-Codants Motifs Cancers Génétique et épigénétique Genomic regulations Expression modelling Non-Coding RNA Motifs Cancers Genetics and epigenetics L'expression des gènes est étroitement régulée par différentes régions régulatrices afin d'assurer une grande variété de types cellulaires et de fonctions. Identifier ces régions régulatrices actives, leurs caractéristiques et comprendre comment elles interagissent entre elles dans chaque type cellulaire est un enjeu majeur. Cette connaissance permettrait notamment de mieux comprendre l'impact des variants génomiques très souvent localisés dans les régions non-codantes. Par ailleurs, le développement de cancers et autres maladies est lié à des dérégulations des contrôles de l'expression des gènes. Pour pouvoir envisager des traitements ciblés et tendre vers une médecine de précision, il est important de comprendre comment toute cette machinerie est orchestrée.Plusieurs approches ont été développées pour répondre à cette question, la plupart basées sur des données expérimentales de modification d'histones, méthylation et facteurs de transcription (TFs). Cependant, ces données sont limitées à des échantillons spécifiques et ne peuvent pas être générées pour tous les régulateurs et tous les patients. Mes travaux de thèse ont porté, dans une première partie, sur la modélisation de l'expression des gènes uniquement à partir de l'information contenue dans la séquence ADN. Nous avons utilisé un modèle linéaire avec sélection de variables, équivalent en terme de performances à des méthodes non paramétriques et simple à interpréter. Ce modèle m'a permis de comparer plusieurs types de variables basées sur la séquence ADN, comme les motifs de fixation des TFs et la composition nucléotidique. Ces variables sont déterminées pour différentes régions du gène afin d'évaluer leur pouvoir régulateur et leur contribution. Les introns seuls, dont la composition nucléotidique reflète celle de l'environnement du gène, expliquent une part importante de la variation de l'expression des gènes. De plus, nous avons démontré que les domaines topologiques (TADs), dans lesquels les interactions sont favorisées, partagent une composition génomique similaire. Notre modèle de prédiction nous permet vraisemblablement de capturer, pour chaque individu, la composition des TADs actifs.Dans un second temps de mon travail, je me suis intéressée aux régulations pouvant survenir dans les introns. Le consortium international FANTOM a fourni un des atlas de sites de départ de la transcription (TSSs) les plus importants à ce jour et nous avons noté que la majorité d'entre eux sont détectés dans les régions non-codantes, notamment les introns. Nous avons donc entrepris un travail visant à explorer ces TSS introniques. Pour déterminer si ces TSSs sont fonctionnels, je me suis intéressée à la recherche de potentiels motifs régulateurs autour de ces signaux de transcription. Une fraction de ces signaux sont localisés 2 bases en aval d'une répétition de Thymidines (T). Des évidences biochimiques et génétiques suggèrent qu'au moins une partie de ces signaux correspondent à de longs ARNs non-codants sens-introniques exprimés de manière tissu-spécifique. Il semblerait également que la longueur des répétitions de Ts ait une influence sur la présence d'un signal de transcription au niveau de ces loci et, indirectement, sur l'expression du gène hôte. Ces observations offrent une possible base moléculaire à l'effet de ces courtes répétitions en tandem de T. Genome expression is tightly controlled by different regulatory regions to provide a wide variety of cell types and functions. Identifying these regulatory regions, their characteristics and understand how they interact with each other in a tissue-specific manner is prime importance. This knowledge should help better understand the impact of genomic variants often located in non-coding regions. Besides, cancer development is invariably linked to deregulation of gene expression controls. To pave the way for targeted treatments and precision medicine, it is important to understand how all this machinery is orchestrated.To answer this question, several approaches were developed, most of them based on experimental data of histone modification, methylation and transcription factors (TFs). However, these data are limited to specific samples and cannot be generated for all the regulators and all the patients. First, my thesis research aimed at modeling gene expression based on DNA sequence only. We used a linear model with variable selection, equivalent in term of performances with non-parametric methods and easy to interpret. This model allowed me to compare several types of variables based on the DNA sequence, as TFs binding motifs and nucleotide composition. These variables are computed for various gene regions to estimate their regulatory power and contribution. Strikingly, introns, for which nucleotide composition reflects gene environment, appear to explain an important part of gene expression variation. Furthermore, we demonstrated that the topological domains (TADs), in which interactions are favored, share similar genomic compositions. Our prediction model presumably captures, for every individual, the composition of active TADs.A second aspect of my work studied the regulations occurring in introns. The international FANTOM consortium provided one of the most important transcription start sites (TSSs) atlas and we noticed that the majority of these TSSs are detected into non-coding regions, in particular introns. We thus investigated these intronic TSSs. To determine if these TSSs are functional, we searched for new potential regulatory motifs at the vicinity of these transcription signals. We found that a fraction of them is located 2 bases downstream of a repetition of Ts. Biochemical and genetic evidences suggest that at least part of these signals correspond to sense-intronic long non-coding RNAs, which are expressed in a tissue specific manner. The length of the T repetition also appears to govern the presence of a transcription signal at these loci and indirectly impact on host gene expression. These findings provide one possible molecular explanation for the effect of these short tandem repeats of Ts. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2018MONTT099/document Bessiere, Chloé 2018-11-27 Montpellier Lecellier, Charles-Henri