Modèles d'intégration de la connaissance pour la fouille des données d'expression des gènes

Dans cette thèse, nous présentons une structure qui comprend tous les méthodes développées pour interpréter des résultats d'expression des gènes en incorporant des annotations sur les gènes. Puis, nous abordons la question de la découverte de « clusters » (algorithmes non-supervisées) parmi des...

Full description

Bibliographic Details
Main Author: Martinez, Ricardo
Language:FRE
Published: Université de Nice Sophia-Antipolis 2007
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00473172
http://tel.archives-ouvertes.fr/docs/00/47/31/72/PDF/These_Ricardo_Martinez.pdf
Description
Summary:Dans cette thèse, nous présentons une structure qui comprend tous les méthodes développées pour interpréter des résultats d'expression des gènes en incorporant des annotations sur les gènes. Puis, nous abordons la question de la découverte de « clusters » (algorithmes non-supervisées) parmi des profils d'expression de gène, et nous proposons deux approches spécifiques à ce sujet : CGGA (Co-expressed Gene Groups Analysis) and GENMINER (Gene-integrated analysis using association rules mining). CGGA est une méthode de l'approche a priori qu'intègre l'information issue des données des biopuces, i.e. les profils d'expression des gènes, avec les annotations fonctionnelles des gènes issues des différentes sources d'information génomique tel que Gène Ontologie. GENMINER est une méthode de co-clustering basé dans l'extraction de règles d'association qu'intègre l'information des profils d'expression des gènes (discrétisées) a partir de différentes sources d'information biologique sur les gènes (en incluant la totalité de l'information minimale contenue dans la biopuce). A la fin nous ciblons la question de la découverte de classes par des méthodes supervisés, a ce sujet nous proposons GENETREE (GENE-integrated analysis for biological sample prediction using decision TREEs). GENETREE est une méthode de co-clustering basé dans les arbres de décision qui permet d'intégrer les profils d'expression des gènes et l'information contenue dans les sources d'information biologique relative aux voies métaboliques (en tenant en compte la variable temporelle du processus biologique. Les expérimentations menées avec les trois méthodes ont permis de mettre en évidence les principaux groupes de gènes fonctionnellement riches et co-exprimés dans les différents jeux de données d'expression des gènes qui ont été analysées.