De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques

Cette thèse en bioinformatique étudie l'intérêt de rechercher des motifs dans des séquences génomiques à l'aide de grammaires. Depuis les années 80, à l'initiative notamment de David Searls, des travaux ont montré qu'en théorie, des grammaires de haut niveau offrent suffisamment...

Full description

Bibliographic Details
Main Author: Antoine-Lorquin, Aymeric
Other Authors: Rennes 1
Language:fr
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016REN1S086/document
id ndltd-theses.fr-2016REN1S086
record_format oai_dc
collection NDLTD
language fr
sources NDLTD
topic Bioinformatique
Reconnaissance de motifs
Grammaire SVG
Modèle grammatical
Séquence génomique
Bioinformatics
Pattern matching
String variable grammar
Grammatical patterns
Genomic sequences

spellingShingle Bioinformatique
Reconnaissance de motifs
Grammaire SVG
Modèle grammatical
Séquence génomique
Bioinformatics
Pattern matching
String variable grammar
Grammatical patterns
Genomic sequences

Antoine-Lorquin, Aymeric
De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques
description Cette thèse en bioinformatique étudie l'intérêt de rechercher des motifs dans des séquences génomiques à l'aide de grammaires. Depuis les années 80, à l'initiative notamment de David Searls, des travaux ont montré qu'en théorie, des grammaires de haut niveau offrent suffisamment d'expressivité pour permettre la description de motifs biologiques complexes, notamment par le biais d'une nouvelle classe de grammaire dédiée à la biologie : les grammaires à variables de chaîne (SVG, String Variable Grammar). Ce formalisme a donné lieu à Logol, qui est un langage grammatical et un outil d'analyse développé dans l'équipe Dyliss où a lieu cette thèse. Logol est un langage conçu pour être suffisamment flexible pour se plier à une large gamme de motifs qu'il est possible de rencontrer en biologie. Le fait que les grammaires restent inutilisée pour la reconnaissance de motifs pose question. Le formalisme grammatical est-il vraiment pertinent pour modéliser des motifs biologiques ? Cette thèse tente de répondre à cette question à travers une démarche exploratoire. Ainsi, nous étudions la pertinence d'utiliser les modèles grammaticaux, via Logol, sur six applications différentes de reconnaissance de motifs sur des génomes. Au travers de la résolution concrète de problématiques biologiques, nous avons mis en évidence certaines caractéristiques des modèles grammaticaux. Une de leurs limites est que leur utilisation présente un coût en termes de performance. Un de leurs atouts est que leur expressivité couvre un large spectre des motifs biologiques, contrairement aux méthodes alternatives, et d'ailleurs certains motifs modélisés par les grammaires n'ont pas d'autres alternatives existantes. Il s'avère en particulier que pour certains motifs complexes, tels que ceux alliant séquence et structure, l'approche grammaticale est la plus adaptée. Pour finir, l'une des conclusions de cette thèse est qu'il n'y a pas réellement de compétition entre les différentes approches, mais plutôt qu'il y a tout à gagner d'une coopération fructueuse. === This thesis studies the interest to look for patterns in genomic sequences using grammars. Since the 80s, work has shown that, in theory, high level grammars offer enough expressivity to allow the description of complex biological patterns. In particular David Searls has proposed a new grammar dedicated to biology: string variable grammar (SVG). This formalism has resulted in Logol, a grammatical language and an analysis tool developed by Dyliss team where this thesis is taking place. Logol is a language designed to be flexible enough to express a wide range of biological patterns. The fact that the grammars remain unknown to model biological patterns raises questions. Is the grammatical formalism really relevant to the recognition of biological patterns? This thesis attempts to answer this question through an exploratory approach. We study the relevance of using the grammatical patterns, by using Logol on six different applications of genomic pattern matching. Through the practical resolution of biological problems, we have highlighted some features of grammatical patterns. First, the use of grammatical models presents a cost in terms of performance. Second the expressiveness of grammatical models covers a broad spectrum of biological patterns, unlike the others alternatives, and some patterns modeled by grammars have no other alternative solutions. It also turns out that for some complex patterns, such as those combining sequence and structure, the grammatical approach is the most suitable. Finally, a thesis conclusion is that there was no real competition between different approaches, but rather everything to gain from successful cooperation.
author2 Rennes 1
author_facet Rennes 1
Antoine-Lorquin, Aymeric
author Antoine-Lorquin, Aymeric
author_sort Antoine-Lorquin, Aymeric
title De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques
title_short De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques
title_full De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques
title_fullStr De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques
title_full_unstemmed De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques
title_sort de l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques
publishDate 2016
url http://www.theses.fr/2016REN1S086/document
work_keys_str_mv AT antoinelorquinaymeric delinteretdesmodelesgrammaticauxpourlareconnaissancedemotifsdanslessequencesgenomiques
AT antoinelorquinaymeric interestofgrammaticalmodelsforpatternmatchingingenomicsequences
_version_ 1718495157778644992
spelling ndltd-theses.fr-2016REN1S0862017-07-11T04:45:25Z De l'intérêt des modèles grammaticaux pour la reconnaissance de motifs dans les séquences génomiques Interest of grammatical models for pattern matching in genomic sequences Bioinformatique Reconnaissance de motifs Grammaire SVG Modèle grammatical Séquence génomique Bioinformatics Pattern matching String variable grammar Grammatical patterns Genomic sequences Cette thèse en bioinformatique étudie l'intérêt de rechercher des motifs dans des séquences génomiques à l'aide de grammaires. Depuis les années 80, à l'initiative notamment de David Searls, des travaux ont montré qu'en théorie, des grammaires de haut niveau offrent suffisamment d'expressivité pour permettre la description de motifs biologiques complexes, notamment par le biais d'une nouvelle classe de grammaire dédiée à la biologie : les grammaires à variables de chaîne (SVG, String Variable Grammar). Ce formalisme a donné lieu à Logol, qui est un langage grammatical et un outil d'analyse développé dans l'équipe Dyliss où a lieu cette thèse. Logol est un langage conçu pour être suffisamment flexible pour se plier à une large gamme de motifs qu'il est possible de rencontrer en biologie. Le fait que les grammaires restent inutilisée pour la reconnaissance de motifs pose question. Le formalisme grammatical est-il vraiment pertinent pour modéliser des motifs biologiques ? Cette thèse tente de répondre à cette question à travers une démarche exploratoire. Ainsi, nous étudions la pertinence d'utiliser les modèles grammaticaux, via Logol, sur six applications différentes de reconnaissance de motifs sur des génomes. Au travers de la résolution concrète de problématiques biologiques, nous avons mis en évidence certaines caractéristiques des modèles grammaticaux. Une de leurs limites est que leur utilisation présente un coût en termes de performance. Un de leurs atouts est que leur expressivité couvre un large spectre des motifs biologiques, contrairement aux méthodes alternatives, et d'ailleurs certains motifs modélisés par les grammaires n'ont pas d'autres alternatives existantes. Il s'avère en particulier que pour certains motifs complexes, tels que ceux alliant séquence et structure, l'approche grammaticale est la plus adaptée. Pour finir, l'une des conclusions de cette thèse est qu'il n'y a pas réellement de compétition entre les différentes approches, mais plutôt qu'il y a tout à gagner d'une coopération fructueuse. This thesis studies the interest to look for patterns in genomic sequences using grammars. Since the 80s, work has shown that, in theory, high level grammars offer enough expressivity to allow the description of complex biological patterns. In particular David Searls has proposed a new grammar dedicated to biology: string variable grammar (SVG). This formalism has resulted in Logol, a grammatical language and an analysis tool developed by Dyliss team where this thesis is taking place. Logol is a language designed to be flexible enough to express a wide range of biological patterns. The fact that the grammars remain unknown to model biological patterns raises questions. Is the grammatical formalism really relevant to the recognition of biological patterns? This thesis attempts to answer this question through an exploratory approach. We study the relevance of using the grammatical patterns, by using Logol on six different applications of genomic pattern matching. Through the practical resolution of biological problems, we have highlighted some features of grammatical patterns. First, the use of grammatical models presents a cost in terms of performance. Second the expressiveness of grammatical models covers a broad spectrum of biological patterns, unlike the others alternatives, and some patterns modeled by grammars have no other alternative solutions. It also turns out that for some complex patterns, such as those combining sequence and structure, the grammatical approach is the most suitable. Finally, a thesis conclusion is that there was no real competition between different approaches, but rather everything to gain from successful cooperation. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2016REN1S086/document Antoine-Lorquin, Aymeric 2016-12-01 Rennes 1 Siegel, Anne Belleannée, Catherine