Modélisation et résolution par métaheuristiques coopératives : de l'atome à la séquence protéique

Dans cette thèse, nous montrons l'importance de la modélisation et de la coopération de métaheuristiques pour la résolution de problèmes réels en bioinformatique. Deux problèmes ont été étudiés: l'identification de protéines à partir de données spectrales en protéomique et le problème du d...

Full description

Bibliographic Details
Main Author: Boisson, Jean-Charles
Other Authors: Lille 1
Language:fr
Published: 2008
Subjects:
Online Access:http://www.theses.fr/2008LIL10154/document
Description
Summary:Dans cette thèse, nous montrons l'importance de la modélisation et de la coopération de métaheuristiques pour la résolution de problèmes réels en bioinformatique. Deux problèmes ont été étudiés: l'identification de protéines à partir de données spectrales en protéomique et le problème du docking moléculaire flexible en analyse structurale des molécules. Pour le premier problème, un nouveau modèle basé sur une comparaison directe des bases de données protéiques avec les données expérimentales brutes a été mise en place. L'approche associée a été intégrée au sein d'un moteur d'identification par empreinte de masse peptide appelé ASCQ_ME. Ce modèle d'identification a permis ensuite de proposer et de valider une modélisation pour le problème de de novo protein sequencing qui consiste à retrouver la séquence d'une protéine à partir des données expérimentales seules. Il s'agit d'un modèle en trois étapes appelé SSO pour Sequence, Shape et Order. SSO a été implémenté et testé à travers trois métaheuristiques collaborant de manière séquentielle. Pour le second problème, une étude des nouvelles modélisations multi-objectif a été menée et a conduit à la définition de huit modèles différents testés à l'aide d'algorithmes génétiques multi-objectif parallèles. Les tests réalisés ont mis en évidence l'efficacité de l'hybridation des algorithmes génétiques avec des recherches locales. Nos développement furent réalisé sur la plateforme ParadisEO et notamment sur la partie ParadisEO-MO pour laquelle nous avons grandement contribués. L'ensemble de ces travaux a été soutenu par le PPF Bio-Informatique de l'Université des Sciences et Technologies de Lille et le projet ANR Dock. === Ln this thesis, we show the importance of the modeling and the cooperation of metaheuristics for solving real problems in Bioinformatics. Two problems are studied: the first in the Proteomics domain for the protein identification from spectral data analysis and the second in the domain of the structural analysis of molecules for the flexible molecular docking problem. So, for the first problem, a new model has been designed based on a direct comparison of a raw experimental spectrum with protein from databases. This model has been included in an identification engine by peptide mass fingerprinting called ASCQ_ME. From this model, an approach for the de novo protein sequencing problem has been proposed and validated. ln this problem, a protein sequence has to be found with only spectral information. Our model is a three step approach called SSO for Sequence, Shape and Order. After a study of each step, SSO has been implemented and tested with three metaheuristics collaborating sequentially. For the second problem, a study of new multi-objective models has been made and has allowed to design eight different models tested with parallel multi-objective genetic algorithms. Twelve configurations of genetic operators has been tested in order to prove the efficiency of the hybridizing of genetic algorithms with local searches. For each part of this work, the ParadisEO platform has been used and more particularly the ParadisEO-MO part dedicated to single solution based metaheuristics for which we have substantially contributed. All this work has been funded by the "PPF Bio-Informatique" of the "Université des Sciences et Technologies de Lille" and by the ANR Dock project.