Modélisation statistique pour la recherche de gènes différentiellement exprimés: modèles de variance-covariance, analyse séquentielle et méta-analyse

Les puces à ADN permettent d'étudier simultanément l'expression de plusieurs milliers de gènes à partir de peu d'individus biologiques. Trois approches sont considérées dans cette thèse pour résoudre les problèmes de sensibilité dans la recherche de gènes différentiellement exprimés:...

Full description

Bibliographic Details
Main Author: Marot, Guillemette
Language:ENG
Published: AgroParisTech 2009
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00458988
http://tel.archives-ouvertes.fr/docs/00/45/89/88/PDF/phDreportGMarot.pdf
http://tel.archives-ouvertes.fr/docs/00/45/89/88/ANNEX/PhDdefence.pdf
Description
Summary:Les puces à ADN permettent d'étudier simultanément l'expression de plusieurs milliers de gènes à partir de peu d'individus biologiques. Trois approches sont considérées dans cette thèse pour résoudre les problèmes de sensibilité dans la recherche de gènes différentiellement exprimés: la modélisation des variances-covariances, l'analyse séquentielle et la méta-analyse. La première et la troisième partie reposent principalement sur des approches dites de 'shrinkage' qui estiment les valeurs de chaque gène à partir de l'information provenant de l'ensemble des gènes. En diminuant le nombre de paramètres à estimer, elles permettent d'augmenter la sensibilité. La modélisation des variances se révèle particulièrement utile dans le cas d'expériences avec de petits échantillons. La modélisation des covariances est quant à elle particulièrement pertinente pour les études de suivi longitudinal où les mesures sont répétées sur les mêmes individus au cours du temps. Côté analyse séquentielle, la sensibilité est étudiée en tant que règle d'arrêt. On cherche alors à arrêter une expérience en cours dès que ce critère dépasse un certain seuil, afin d'en diminuer les coûts. La méta-analyse est ensuite étudiée dans un contexte beaucoup plus général que celui de l'analyse séquentielle où on combinait les analyses intermédiaires. Elle permet de gagner de la sensibilité en regroupant des résultats d'études individuelles qui ne sont pas comparables directement mais qui répondent à une même question biologique. La méta-analyse est abordée à la fois sous l'angle fréquentiste (combinaison de grandeurs des effets ou combinaison de p-values) et sous l'angle bayésien.