Large vocabulary off-line handwritten word recognition

Au cours des dernières années, des progrès considérables ont été accomplis dans le domaine de la reconnaissance de l'écriture manuscrite. Ainsi, il est intéressant de constater que la plupart des systèmes existants s'appuient sur l'utilisation d'un lexique pour effectuer la reco...

Full description

Bibliographic Details
Main Author: Koerich, Alessandro L.
Format: Others
Published: École de technologie supérieure 2002
Online Access:http://espace.etsmtl.ca/818/1/KOERICH_Alessandro_L..pdf
id ndltd-LACETR-oai-collectionscanada.gc.ca-QMUQET.818
record_format oai_dc
spelling ndltd-LACETR-oai-collectionscanada.gc.ca-QMUQET.8182013-10-24T03:40:31Z Large vocabulary off-line handwritten word recognition Koerich, Alessandro L. Au cours des dernières années, des progrès considérables ont été accomplis dans le domaine de la reconnaissance de l'écriture manuscrite. Ainsi, il est intéressant de constater que la plupart des systèmes existants s'appuient sur l'utilisation d'un lexique pour effectuer la reconnaissance de mots. Or, dans la plupart des applications le lexique utilisé est de petite ou de moyenne dimension. Bien entendu, la possibilité de traiter efficacement un très grand vocabulaire permettrait d'élargir le champ des applications, mais cette extension du vocabulaire (de quelques dizaines à plus de 80000 mots) a pour conséquence l'explosion de l'espace de recherche et bien souvent la dégradation des taux de reconnaissance. Ainsi, le thème principal de cette thèse de doctorat est la reconnaissance de l'écriture manuscrite dans le cadre de l'utilisation de lexique de très grande dimension. Nous présentons tout d'abord, plusieurs stratégies pour améliorer en termes de vitesse de reconnaissance les performances d'un système de référence. L'objectif sera alors de permettre au système de traiter de très grands lexiques dans un temps raisonnable. Par la suite, nous améliorons les performances en termes de taux de reconnaissance. Pour ce faire, nous utiliserons une approche neuronale afin de vérifier les N meilleurs hypothèses de mots isolés par le système de référence. D'autre part, toutes les caractéristiques du système initial ont été conservées: système omni-scripteurs, écriture sans contraintes, et lexiques générés dynamiquement. Les contributions majeures de cette thèse sont l'accélération d'un facteur 120 du temps de traitement et l'amélioration du taux de reconnaissance d'environ 10% par rapport au système de référence. Le gain en vitesse est obtenu grâce aux techniques suivantes: recherche dans un arbre lexical, réduction des multiples modèles de caractères, techniques de reconnaissance guidée par le lexique avec et sans contraintes, algorithme "level-building" guidé par le lexique, algorithme rapide à deux niveaux pour effectuer le décodage des séquences d'observations et utilisation d'une approche de reconnaissance distribuée. Par ailleurs, la précision du système est améliorée par le post-traitement des N meilleures hypothèses de mots à l'aide d'un module de vérification. Ce module est basé sur l'utilisation d'un réseau de neurones pour vérifier la présence de chacun des caractères segmentés par le système de base. La combinaison des résultats du système de référence et du module de vérification permet alors d'améliorer significativement les performances de reconnaissance. Enfin, une procédure de rejet est mise en place et permet d'atteindre un taux de reconnaissance d'environ 95% en ne rejetant que 30% des exemples. École de technologie supérieure 2002-08-19 Mémoire ou thèse NonPeerReviewed application/pdf http://espace.etsmtl.ca/818/1/KOERICH_Alessandro_L..pdf Koerich, Alessandro L. (2002). Large vocabulary off-line handwritten word recognition. Thèse de doctorat électronique, École de technologie supérieure. http://espace.etsmtl.ca/818/
collection NDLTD
format Others
sources NDLTD
description Au cours des dernières années, des progrès considérables ont été accomplis dans le domaine de la reconnaissance de l'écriture manuscrite. Ainsi, il est intéressant de constater que la plupart des systèmes existants s'appuient sur l'utilisation d'un lexique pour effectuer la reconnaissance de mots. Or, dans la plupart des applications le lexique utilisé est de petite ou de moyenne dimension. Bien entendu, la possibilité de traiter efficacement un très grand vocabulaire permettrait d'élargir le champ des applications, mais cette extension du vocabulaire (de quelques dizaines à plus de 80000 mots) a pour conséquence l'explosion de l'espace de recherche et bien souvent la dégradation des taux de reconnaissance. Ainsi, le thème principal de cette thèse de doctorat est la reconnaissance de l'écriture manuscrite dans le cadre de l'utilisation de lexique de très grande dimension. Nous présentons tout d'abord, plusieurs stratégies pour améliorer en termes de vitesse de reconnaissance les performances d'un système de référence. L'objectif sera alors de permettre au système de traiter de très grands lexiques dans un temps raisonnable. Par la suite, nous améliorons les performances en termes de taux de reconnaissance. Pour ce faire, nous utiliserons une approche neuronale afin de vérifier les N meilleurs hypothèses de mots isolés par le système de référence. D'autre part, toutes les caractéristiques du système initial ont été conservées: système omni-scripteurs, écriture sans contraintes, et lexiques générés dynamiquement. Les contributions majeures de cette thèse sont l'accélération d'un facteur 120 du temps de traitement et l'amélioration du taux de reconnaissance d'environ 10% par rapport au système de référence. Le gain en vitesse est obtenu grâce aux techniques suivantes: recherche dans un arbre lexical, réduction des multiples modèles de caractères, techniques de reconnaissance guidée par le lexique avec et sans contraintes, algorithme "level-building" guidé par le lexique, algorithme rapide à deux niveaux pour effectuer le décodage des séquences d'observations et utilisation d'une approche de reconnaissance distribuée. Par ailleurs, la précision du système est améliorée par le post-traitement des N meilleures hypothèses de mots à l'aide d'un module de vérification. Ce module est basé sur l'utilisation d'un réseau de neurones pour vérifier la présence de chacun des caractères segmentés par le système de base. La combinaison des résultats du système de référence et du module de vérification permet alors d'améliorer significativement les performances de reconnaissance. Enfin, une procédure de rejet est mise en place et permet d'atteindre un taux de reconnaissance d'environ 95% en ne rejetant que 30% des exemples.
author Koerich, Alessandro L.
spellingShingle Koerich, Alessandro L.
Large vocabulary off-line handwritten word recognition
author_facet Koerich, Alessandro L.
author_sort Koerich, Alessandro L.
title Large vocabulary off-line handwritten word recognition
title_short Large vocabulary off-line handwritten word recognition
title_full Large vocabulary off-line handwritten word recognition
title_fullStr Large vocabulary off-line handwritten word recognition
title_full_unstemmed Large vocabulary off-line handwritten word recognition
title_sort large vocabulary off-line handwritten word recognition
publisher École de technologie supérieure
publishDate 2002
url http://espace.etsmtl.ca/818/1/KOERICH_Alessandro_L..pdf
work_keys_str_mv AT koerichalessandrol largevocabularyofflinehandwrittenwordrecognition
_version_ 1716611365995544576