Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe

L'objectif de cette thèse est d'élaborer un système de reconnaissance de mots manuscrits pouvant être appris et appliqué sur différents styles d'écriture. L'approche utilisée est une approche analytique: les mots sont découpés en sous-parties (caractères) à modéliser. Le découpag...

Full description

Bibliographic Details
Main Author: Bianne Bernard, Anne-Laure
Language:FRE
Published: Télécom ParisTech 2011
Subjects:
MMC
Online Access:http://pastel.archives-ouvertes.fr/pastel-00656402
http://pastel.archives-ouvertes.fr/docs/00/65/64/02/PDF/THESE_AnneLaureBianneBernard_20130107.pdf
http://pastel.archives-ouvertes.fr/docs/00/65/64/02/ANNEX/SoutenanceThese_Bernard_V4.ppt
id ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-00656402
record_format oai_dc
spelling ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-006564022013-01-07T17:05:32Z http://pastel.archives-ouvertes.fr/pastel-00656402 http://pastel.archives-ouvertes.fr/docs/00/65/64/02/PDF/THESE_AnneLaureBianneBernard_20130107.pdf http://pastel.archives-ouvertes.fr/docs/00/65/64/02/ANNEX/SoutenanceThese_Bernard_V4.ppt Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe Bianne Bernard, Anne-Laure [INFO:INFO_TI] Computer Science/Image Processing reconnaissance d'écriture manuscrite hors-ligne MMC modèles en contexte clustering arbres binaires multiscript L'objectif de cette thèse est d'élaborer un système de reconnaissance de mots manuscrits pouvant être appris et appliqué sur différents styles d'écriture. L'approche utilisée est une approche analytique: les mots sont découpés en sous-parties (caractères) à modéliser. Le découpage est effectué de manière implicite par l'utilisation de fenêtres glissantes qui permettent de transformer les images de mots en séquences. La méthode choisie pour apprendre les modèles de caractères utilise les modèles de Markov cachés (HMMs). Chaque caractère est représenté par un HMM de type Bakis, ce qui permet d'absorber les variations d'écriture entre scripteurs. Les mots sont reconstruits ensuite par concaténation des modèles qui les composent. Dans cette thèse, le choix est fait de chercher à améliorer la modélisation HMM de caractères en agissant au coeur même des modèles. A cette fin, une nouvelle approche est proposée, qui utilise l'aspect contextuel pour la modélisation : un caractère est modélisé en fonction de son contexte et son modèle est nommé trigraphe. La prise en compte de l'environnement d'un caractère pour sa modélisation implique cependant une multiplication des paramètres HMMs à apprendre sur un nombre souvent restreint de données d'observation. Une méthode originale de regroupement de paramètres est proposée dans ces travaux : le clustering d'états par position à l'aide d'arbres binaires de décision. Ce type de clustering, inédit dans les systèmes de reconnaissance de l'écriture, permet au système de réduire le nombre de paramètres tout en conservant l'un des principaux attraits des HMMs : l'utilisation d'un lexique de test indépendant de celui d'apprentissage. 2011-11-21 FRE PhD thesis Télécom ParisTech
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_TI] Computer Science/Image Processing
reconnaissance d'écriture manuscrite
hors-ligne
MMC
modèles en contexte
clustering
arbres binaires
multiscript
spellingShingle [INFO:INFO_TI] Computer Science/Image Processing
reconnaissance d'écriture manuscrite
hors-ligne
MMC
modèles en contexte
clustering
arbres binaires
multiscript
Bianne Bernard, Anne-Laure
Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe
description L'objectif de cette thèse est d'élaborer un système de reconnaissance de mots manuscrits pouvant être appris et appliqué sur différents styles d'écriture. L'approche utilisée est une approche analytique: les mots sont découpés en sous-parties (caractères) à modéliser. Le découpage est effectué de manière implicite par l'utilisation de fenêtres glissantes qui permettent de transformer les images de mots en séquences. La méthode choisie pour apprendre les modèles de caractères utilise les modèles de Markov cachés (HMMs). Chaque caractère est représenté par un HMM de type Bakis, ce qui permet d'absorber les variations d'écriture entre scripteurs. Les mots sont reconstruits ensuite par concaténation des modèles qui les composent. Dans cette thèse, le choix est fait de chercher à améliorer la modélisation HMM de caractères en agissant au coeur même des modèles. A cette fin, une nouvelle approche est proposée, qui utilise l'aspect contextuel pour la modélisation : un caractère est modélisé en fonction de son contexte et son modèle est nommé trigraphe. La prise en compte de l'environnement d'un caractère pour sa modélisation implique cependant une multiplication des paramètres HMMs à apprendre sur un nombre souvent restreint de données d'observation. Une méthode originale de regroupement de paramètres est proposée dans ces travaux : le clustering d'états par position à l'aide d'arbres binaires de décision. Ce type de clustering, inédit dans les systèmes de reconnaissance de l'écriture, permet au système de réduire le nombre de paramètres tout en conservant l'un des principaux attraits des HMMs : l'utilisation d'un lexique de test indépendant de celui d'apprentissage.
author Bianne Bernard, Anne-Laure
author_facet Bianne Bernard, Anne-Laure
author_sort Bianne Bernard, Anne-Laure
title Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe
title_short Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe
title_full Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe
title_fullStr Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe
title_full_unstemmed Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe
title_sort reconnaissance de mots manuscrits cursifs par modèles de markov cachés en contexte : application au français, à l'anglais et à l'arabe
publisher Télécom ParisTech
publishDate 2011
url http://pastel.archives-ouvertes.fr/pastel-00656402
http://pastel.archives-ouvertes.fr/docs/00/65/64/02/PDF/THESE_AnneLaureBianneBernard_20130107.pdf
http://pastel.archives-ouvertes.fr/docs/00/65/64/02/ANNEX/SoutenanceThese_Bernard_V4.ppt
work_keys_str_mv AT biannebernardannelaure reconnaissancedemotsmanuscritscursifsparmodelesdemarkovcachesencontexteapplicationaufrancaisalanglaisetalarabe
_version_ 1716395287695589376