Estimations précises de grandes déviations et applications à la statistique des séquences biologiques

Pour obtenir des listes de mots de fréquences exceptionnelles par rapport à un modèle aléatoire, par exemple dans un contexte de biologie moléculaire, il faut quantifier la qualité de la prédiction des fréquences d'une famille de mots. Nous étudions les probabilités de grandes déviations du pro...

Full description

Bibliographic Details
Main Author: Pudlo, Pierre
Language:FRE
Published: Université Claude Bernard - Lyon I 2004
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00008517
http://tel.archives-ouvertes.fr/docs/00/04/77/47/PDF/tel-00008517.pdf
Description
Summary:Pour obtenir des listes de mots de fréquences exceptionnelles par rapport à un modèle aléatoire, par exemple dans un contexte de biologie moléculaire, il faut quantifier la qualité de la prédiction des fréquences d'une famille de mots. Nous étudions les probabilités de grandes déviations du processus vectoriel de comptage d'une famille de mots dans des modèles de Markov et des modèles de Markov cachés. Pour démontrer ces résultats, nous établissont un développement du type Edgeworth sur les fonctionnelles additives d'une chaîne de Markov finie. Nous utilisons les théorèmes obtenus pour produire des listes de mots exceptionnels dans les génomes d'Escherichia Coli et de Bacillus Subtilis par conditionnements successifs d'un modèle statistique initial.