Estimations précises de grandes déviations et applications à la statistique des séquences biologiques
Pour obtenir des listes de mots de fréquences exceptionnelles par rapport à un modèle aléatoire, par exemple dans un contexte de biologie moléculaire, il faut quantifier la qualité de la prédiction des fréquences d'une famille de mots. Nous étudions les probabilités de grandes déviations du pro...
Main Author: | |
---|---|
Language: | FRE |
Published: |
Université Claude Bernard - Lyon I
2004
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00008517 http://tel.archives-ouvertes.fr/docs/00/04/77/47/PDF/tel-00008517.pdf |
Summary: | Pour obtenir des listes de mots de fréquences exceptionnelles par rapport à un modèle aléatoire, par exemple dans un contexte de biologie moléculaire, il faut quantifier la qualité de la prédiction des fréquences d'une famille de mots. Nous étudions les probabilités de grandes déviations du processus vectoriel de comptage d'une famille de mots dans des modèles de Markov et des modèles de Markov cachés. Pour démontrer ces résultats, nous établissont un développement du type Edgeworth sur les fonctionnelles additives d'une chaîne de Markov finie. Nous utilisons les théorèmes obtenus pour produire des listes de mots exceptionnels dans les génomes d'Escherichia Coli et de Bacillus Subtilis par conditionnements successifs d'un modèle statistique initial. |
---|