Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression

La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour...

Full description

Bibliographic Details
Main Author: Lefebvre, François
Other Authors: Lemieux, Sébastien
Language:fr
Published: 2011
Subjects:
Online Access:http://hdl.handle.net/1866/5871
id ndltd-LACETR-oai-collectionscanada.gc.ca-QMU.1866-5871
record_format oai_dc
spelling ndltd-LACETR-oai-collectionscanada.gc.ca-QMU.1866-58712013-10-04T04:18:19ZComparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expressionLefebvre, Françoismicroarrayspuces à ADNexpression différentiellefold-changeAffymetrixdifferential expressionBiology - Bioinformatics / Biologie - Bio-informatique (UMI : 0715)La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour le pré-traitement et en particulier, l'analyse de l'expression différentielle. Toutefois, l'absence de données de calibration ou de méthodologie de comparaison appropriée a empêché l'émergence d'un consensus quant aux méthodes d'analyse optimales. En conséquence, la décision de l'analyste de choisir telle méthode plutôt qu'une autre se fera la plupart du temps de façon subjective, en se basant par exemple sur la facilité d'utilisation, l'accès au logiciel ou la popularité. Ce mémoire présente une approche nouvelle au problème de la comparaison des méthodes d'analyse de l'expression différentielle. Plus de 800 pipelines d'analyse sont appliqués à plus d'une centaine d'expériences sur deux plateformes Affymetrix différentes. La performance de chacun des pipelines est évaluée en calculant le niveau moyen de co-régulation par l'entremise de scores d'enrichissements pour différentes collections de signatures moléculaires. L'approche comparative proposée repose donc sur un ensemble varié de données biologiques pertinentes, ne confond pas la reproductibilité avec l'exactitude et peut facilement être appliquée à de nouvelles méthodes. Parmi les méthodes testées, la supériorité de la sommarisation FARMS et de la statistique de l'expression différentielle TREAT est sans équivoque. De plus, les résultats obtenus quant à la statistique d'expression différentielle corroborent les conclusions d'autres études récentes à propos de l'importance de prendre en compte la grandeur du changement en plus de sa significativité statistique.Microarrays remain an important tool for the measurement of gene expression, and a myriad of methods for their pre-processing or statistical testing of differential expression has been proposed in the past. However, insufficient and sometimes contradictory evidence has prevented the emergence of a strong consensus over a preferred methodology. This leaves microarray practitioners to somewhat arbitrarily decide which method should be used to analyze their data. Here we present a novel approach to the problem of comparing methods for the identification of differentially expressed genes. Over eight hundred analytic pipelines were applied to more than a hundred independent microarray experiments. The accuracy of each analytic pipeline was assessed by measuring the average level of co-regulation uncovered across all data sets. This analysis thus relies on a varied set of biologically relevant data, does not confound reproducibility for accuracy and can easily be extended to future analytic pipelines. This procedure identified FARMS summarization and the TREAT gene ordering statistic as algorithms significantly more accurate than other alternatives. Most interestingly, our results corroborate recent findings about the importance of taking the magnitude of change into account along with an assessment of statistical significance.Lemieux, Sébastien2011-11-23T17:28:45ZNO_RESTRICTION2011-11-23T17:28:45Z2011-11-032011-03Thèse ou Mémoire numérique / Electronic Thesis or Dissertationhttp://hdl.handle.net/1866/5871fr
collection NDLTD
language fr
sources NDLTD
topic microarrays
puces à ADN
expression différentielle
fold-change
Affymetrix
differential expression
Biology - Bioinformatics / Biologie - Bio-informatique (UMI : 0715)
spellingShingle microarrays
puces à ADN
expression différentielle
fold-change
Affymetrix
differential expression
Biology - Bioinformatics / Biologie - Bio-informatique (UMI : 0715)
Lefebvre, François
Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression
description La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour le pré-traitement et en particulier, l'analyse de l'expression différentielle. Toutefois, l'absence de données de calibration ou de méthodologie de comparaison appropriée a empêché l'émergence d'un consensus quant aux méthodes d'analyse optimales. En conséquence, la décision de l'analyste de choisir telle méthode plutôt qu'une autre se fera la plupart du temps de façon subjective, en se basant par exemple sur la facilité d'utilisation, l'accès au logiciel ou la popularité. Ce mémoire présente une approche nouvelle au problème de la comparaison des méthodes d'analyse de l'expression différentielle. Plus de 800 pipelines d'analyse sont appliqués à plus d'une centaine d'expériences sur deux plateformes Affymetrix différentes. La performance de chacun des pipelines est évaluée en calculant le niveau moyen de co-régulation par l'entremise de scores d'enrichissements pour différentes collections de signatures moléculaires. L'approche comparative proposée repose donc sur un ensemble varié de données biologiques pertinentes, ne confond pas la reproductibilité avec l'exactitude et peut facilement être appliquée à de nouvelles méthodes. Parmi les méthodes testées, la supériorité de la sommarisation FARMS et de la statistique de l'expression différentielle TREAT est sans équivoque. De plus, les résultats obtenus quant à la statistique d'expression différentielle corroborent les conclusions d'autres études récentes à propos de l'importance de prendre en compte la grandeur du changement en plus de sa significativité statistique. === Microarrays remain an important tool for the measurement of gene expression, and a myriad of methods for their pre-processing or statistical testing of differential expression has been proposed in the past. However, insufficient and sometimes contradictory evidence has prevented the emergence of a strong consensus over a preferred methodology. This leaves microarray practitioners to somewhat arbitrarily decide which method should be used to analyze their data. Here we present a novel approach to the problem of comparing methods for the identification of differentially expressed genes. Over eight hundred analytic pipelines were applied to more than a hundred independent microarray experiments. The accuracy of each analytic pipeline was assessed by measuring the average level of co-regulation uncovered across all data sets. This analysis thus relies on a varied set of biologically relevant data, does not confound reproducibility for accuracy and can easily be extended to future analytic pipelines. This procedure identified FARMS summarization and the TREAT gene ordering statistic as algorithms significantly more accurate than other alternatives. Most interestingly, our results corroborate recent findings about the importance of taking the magnitude of change into account along with an assessment of statistical significance.
author2 Lemieux, Sébastien
author_facet Lemieux, Sébastien
Lefebvre, François
author Lefebvre, François
author_sort Lefebvre, François
title Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression
title_short Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression
title_full Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression
title_fullStr Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression
title_full_unstemmed Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression
title_sort comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression
publishDate 2011
url http://hdl.handle.net/1866/5871
work_keys_str_mv AT lefebvrefrancois comparaisondesmethodesdanalysedelexpressiondifferentiellebaseesurladependancedesniveauxdexpression
_version_ 1716602669465862144