Analyse intégrée de données de génomique et d’imagerie pour le diagnostic et le suivi du gliome malin chez l’enfant

Les tumeurs cérébrales malignes sont la première cause de mortalité par cancer chez l’enfant avec une survie médiane de 12 à 14 mois et une survie globale à 5 ans de 20%, pour les gliomes de haut grade. Ce travail de thèse propose des méthodes innovantes pour l’analyse de blocs de données de génomiq...

Full description

Bibliographic Details
Main Author: Philippe, Cathy
Other Authors: Paris 11
Language:fr
Published: 2014
Subjects:
Online Access:http://www.theses.fr/2014PA112368/document
Description
Summary:Les tumeurs cérébrales malignes sont la première cause de mortalité par cancer chez l’enfant avec une survie médiane de 12 à 14 mois et une survie globale à 5 ans de 20%, pour les gliomes de haut grade. Ce travail de thèse propose des méthodes innovantes pour l’analyse de blocs de données de génomiques, dans le but d’accroître les connaissances biologiques sur ces tumeurs. Les méthodes proposées étendent les travaux de Tenenhaus et al (2011), introduisant le cadre statistique général : Regularized Generalized Canonical Correlation Analysis (RGCCA). Dans un premier temps, nous étendons RGCCA à la gestion de données en grande dimension via une écriture duale de l’algorithme initial (KGCCA). Dans un deuxième temps, la problématique de la sélection de variables dans un contexte multi-Blocs est étudiée. Nous en proposons une solution avec la méthode SGCCA, qui pénalise la norme L1 des poids des composantes. Dans un troisième temps, nous nous intéressons à la nature des liens entre blocs avec deux autres adaptations. D’une part, la régression logistique multi-Blocs (multiblog) permet de prédire une variable binaire, comme la réponse à un traitement. D’autre part, le modèle de Cox multi-Blocs (multiblox) permet d’évaluer, par exemple, le risque instantané de rechute. Enfin, nous appliquons ces méthodes à l’analyse conjointe des données de transcriptome et d’aberrations du nombre de copies, acquises sur une cohorte de 53 jeunes patients avec un gliome de haut grade primaire. Les résultats sont décrits dans le dernier chapitre du manuscrit. === Cerebral malignant tumors are the leading cause of death among pediatric cancers with a median survival from 12 to 14 months and an overall survival of 20% at 5 years for high grade gliomas. This work proposes some innovative methods for the analysis of heterogeneous genomic multi-Block data, with the main objective of increasing biological knowledge about such tumors. These methods extend works of Tenenhaus and Tenenhaus (2011), who introduce Regularized Generalized Canonical Correlation Analysis (RGCCA) as a general statistical framework for multi-Block data analysis. As a first step, we extended RGCCA to handle large-Scale data with kernel methods (KGCCA). As a second step, SGCCA for variable selection within the RGCCA context is studied and leads to an additional constraint on the L1-Norm of the weight vectors. Then, as a third step, we focused on the nature of the links between blocks, with 2 other developments. On one hand, multi-Block logistic regression (multiblog) enables to predict a binary variable, such as response to treatment. On the other hand, the Cox model for multi-Block data (multiblox) enables the assessment of the instant risk, for instance, of relapse. We applied these methods to the joint analysis of Gene Expression and Copy Number Aberrations, acquired on a cohort of 53 young patients with a primary High Grade Glioma. Results are detailed in the last chapter of this work.