Feature design and lexicon reduction for efficient offline handwriting recognition
Cette thèse établit un cadre de travail de reconnaissance de formes pour les systèmes de reconnaissance de mots hors-ligne. Elle se concentre sur les caractéristiques de l’image, car elles ont une grande influence sur les performances de reconnaissance. En particulier, nous considérons deux aspects...
Main Author: | |
---|---|
Format: | Others |
Published: |
École de technologie supérieure
2014
|
Online Access: | http://espace.etsmtl.ca/1273/1/CHHERAWALA_Youssouf.pdf http://espace.etsmtl.ca/1273/2/CHHERAWALA_Youssouf%2Dweb.pdf |
id |
ndltd-LACETR-oai-collectionscanada.gc.ca-QMUQET.1273 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
format |
Others
|
sources |
NDLTD |
description |
Cette thèse établit un cadre de travail de reconnaissance de formes pour les systèmes de reconnaissance de mots hors-ligne. Elle se concentre sur les caractéristiques de l’image, car elles ont une grande influence sur les performances de reconnaissance. En particulier, nous considérons deux aspects complémentaires de l’impact des caractéristiques: la réduction du lexique et la reconnaissance elle-même. Le premier aspect, la réduction du lexique, consiste à concevoir un classifieur faible qui fournit en sortie un ensemble d’hypothèses de mots à partir d’une image de mot. Son objectif principal est de réduire le temps de calcul de la reconnaissance tout en maintenant (voire améliorant) le taux de reconnaissance. Le deuxième aspect est le système de reconnaissance proprement dit. Plusieurs caractéristiques existent dans la littérature, issues de différents domaines de recherche, mais il n’existe pas de consensus sur les pistes les plus prometteuses. L’objectif de cette thèse est d’améliorer notre compréhension des caractéristiques pertinentes pour construire des systèmes de reconnaissance encore plus performants. À cette fin, nous avons abordé deux problèmes spécifiques: 1) la conception de caractéristiques pour la réduction du lexique (appliquée à l’écriture arabe), et 2) l’évaluation de caractéristiques pour la reconnaissance de l’écriture manuscrite cursive (appliquée à l’écriture latine et arabe).
Contrairement à l’écriture latine, la problématique de réduction du lexique est peu abordée pour l’écriture arabe. Les méthodes existantes utilisent certaines caractéristiques fondamentales des mots arabes telles que le nombre de sous-mots et les signes diacritiques, mais ignorent totalement la forme des sous-mots. Par conséquent, notre premier objectif est de créer une méthode de réduction du lexique basée sur la forme des sous-mots. Notre approche utilise l’indexation de formes, où la forme d’un sous-mot requête est comparée à une base de données étiquetée de sous-mots échantillons. Pour une comparaison efficace avec un faible temps de calcul, nous avons proposé le vecteur de signature topologique pondéré (W-TSV), où la forme du sous-mot est modélisée par un graphe acyclique orienté (DAG) pondéré, à partir duquel le vecteur W-TSV est extrait pour l’indexation. La principale contribution de ce travail est d’élargir le cadre existant du vecteur de signature topologique (TSV) aux DAGs pondérés et de proposer une approche d’indexation de formes pour la réduction du lexique. Cette approche est performante pour la réduction d’un lexique composé de sous-mots arabes. Néanmoins, ses performances restent modestes pour les mots arabes.
Compte tenu des résultats de notre premier travail sur la réduction du lexique de mots arabe, nous proposons de construire un nouvel index pour de meilleures performances au niveau du mot. La forme des sous-mots, ainsi que leur nombre et celui des signes diacritiques sont des éléments importants de la forme du mot arabe. Nous proposons donc le descripteur de mot arabe (AWD) qui intègre toutes les composantes mentionnées ci-dessus. Il est construit en deux étapes. Tout d’abord, un descripteur de structure (SD) est calculé pour chaque composante connexe (CC) d’une image de mots. Il décrit la forme de la CC en utilisant le modèle de sac-de-mots, où chaque mot visuel représente une structure locale particulière. Ensuite, l’AWD est formé par la concaténation des SDs en utilisant une heuristique efficace, qui différencie implicitement les sous-mots des signes diacritiques. Dans le contexte de la réduction du lexique, l’AWD est utilisé pour indexer une base de données référence. La principale contribution de ce travail est la conception de l’AWD, qui intègre les caractéristiques de bas niveau (structure de la forme du sous-mot) et les informations symboliques (nombre de sous-mots et de signes diacritiques) en un seul descripteur. La méthode proposée possède un faible temps de calcul et elle est facile à implémenter. Elle fournit de meilleures performances pour la réduction du lexique sur deux bases de données d’écriture arabe, à savoir la base de données de sous-mots Ibn Sina et la base de données de mots IFN/ENIT.
La dernière partie de cette thèse se concentre sur les caractéristiques visuelles pour la reconnaissance de mots. Un grand nombre de caractéristiques existent dans la littérature, chacune d’elles étant motivées par différents domaines, tels que la reconnaissance des formes, la vision par ordinateur ou l’apprentissage machine. Identifier les approches les plus prometteuses servirait à améliorer la conception de la prochaine génération de caractéristiques. Néanmoins, comme elles sont fondées sur des concepts différents, il est difficile de les comparer de manière théorique, des outils empiriques sont donc nécessaires. Par conséquent, le dernier objectif de la thèse est de fournir une méthode d’évaluation de caractéristiques en fonction de leur force et complémentarité. Un modèle de combinaison a été conçu à cet effet, dans lequel chaque caractéristique est évaluée au travers d’un système référence de reconnaissance, basée sur les réseaux de neurones récurrents. Plus précisément, chaque caractéristique est représentée par un agent, qui est une instance du système de reconnaissance entraînée à partir de cette caractéristique. Les décisions de tous les agents sont combinées en utilisant un vote pondéré. Les poids sont optimisés conjointement au cours d’une phase d’entraînement, afin d’augmenter le vote pondéré de la véritable étiquette de chaque mot. Par conséquent, les poids reflètent la force et la complémentarité des agents et de leurs caractéristiques pour la tâche donnée. Enfin, les poids sont convertis en scores numériques attribués aux caractéristiques, qui sont faciles à interpréter sous ce modèle de combinaison. Au meilleur de notre connaissance, c’est la première méthode d’évaluation de caractéristiques capable de quantifier l’importance de chaque caractéristique, au lieu d’établir un classement basé sur le taux de reconnaissance. Cinq caractéristiques de l’état de l’art ont été testées et nos résultats offrent une perspective intéressante pour la conception de futures caractéristiques. |
author |
Chherawala, Youssouf |
spellingShingle |
Chherawala, Youssouf Feature design and lexicon reduction for efficient offline handwriting recognition |
author_facet |
Chherawala, Youssouf |
author_sort |
Chherawala, Youssouf |
title |
Feature design and lexicon reduction for efficient offline handwriting recognition |
title_short |
Feature design and lexicon reduction for efficient offline handwriting recognition |
title_full |
Feature design and lexicon reduction for efficient offline handwriting recognition |
title_fullStr |
Feature design and lexicon reduction for efficient offline handwriting recognition |
title_full_unstemmed |
Feature design and lexicon reduction for efficient offline handwriting recognition |
title_sort |
feature design and lexicon reduction for efficient offline handwriting recognition |
publisher |
École de technologie supérieure |
publishDate |
2014 |
url |
http://espace.etsmtl.ca/1273/1/CHHERAWALA_Youssouf.pdf http://espace.etsmtl.ca/1273/2/CHHERAWALA_Youssouf%2Dweb.pdf |
work_keys_str_mv |
AT chherawalayoussouf featuredesignandlexiconreductionforefficientofflinehandwritingrecognition |
_version_ |
1716666643957940224 |
spelling |
ndltd-LACETR-oai-collectionscanada.gc.ca-QMUQET.12732014-05-07T03:53:34Z Feature design and lexicon reduction for efficient offline handwriting recognition Chherawala, Youssouf Cette thèse établit un cadre de travail de reconnaissance de formes pour les systèmes de reconnaissance de mots hors-ligne. Elle se concentre sur les caractéristiques de l’image, car elles ont une grande influence sur les performances de reconnaissance. En particulier, nous considérons deux aspects complémentaires de l’impact des caractéristiques: la réduction du lexique et la reconnaissance elle-même. Le premier aspect, la réduction du lexique, consiste à concevoir un classifieur faible qui fournit en sortie un ensemble d’hypothèses de mots à partir d’une image de mot. Son objectif principal est de réduire le temps de calcul de la reconnaissance tout en maintenant (voire améliorant) le taux de reconnaissance. Le deuxième aspect est le système de reconnaissance proprement dit. Plusieurs caractéristiques existent dans la littérature, issues de différents domaines de recherche, mais il n’existe pas de consensus sur les pistes les plus prometteuses. L’objectif de cette thèse est d’améliorer notre compréhension des caractéristiques pertinentes pour construire des systèmes de reconnaissance encore plus performants. À cette fin, nous avons abordé deux problèmes spécifiques: 1) la conception de caractéristiques pour la réduction du lexique (appliquée à l’écriture arabe), et 2) l’évaluation de caractéristiques pour la reconnaissance de l’écriture manuscrite cursive (appliquée à l’écriture latine et arabe). Contrairement à l’écriture latine, la problématique de réduction du lexique est peu abordée pour l’écriture arabe. Les méthodes existantes utilisent certaines caractéristiques fondamentales des mots arabes telles que le nombre de sous-mots et les signes diacritiques, mais ignorent totalement la forme des sous-mots. Par conséquent, notre premier objectif est de créer une méthode de réduction du lexique basée sur la forme des sous-mots. Notre approche utilise l’indexation de formes, où la forme d’un sous-mot requête est comparée à une base de données étiquetée de sous-mots échantillons. Pour une comparaison efficace avec un faible temps de calcul, nous avons proposé le vecteur de signature topologique pondéré (W-TSV), où la forme du sous-mot est modélisée par un graphe acyclique orienté (DAG) pondéré, à partir duquel le vecteur W-TSV est extrait pour l’indexation. La principale contribution de ce travail est d’élargir le cadre existant du vecteur de signature topologique (TSV) aux DAGs pondérés et de proposer une approche d’indexation de formes pour la réduction du lexique. Cette approche est performante pour la réduction d’un lexique composé de sous-mots arabes. Néanmoins, ses performances restent modestes pour les mots arabes. Compte tenu des résultats de notre premier travail sur la réduction du lexique de mots arabe, nous proposons de construire un nouvel index pour de meilleures performances au niveau du mot. La forme des sous-mots, ainsi que leur nombre et celui des signes diacritiques sont des éléments importants de la forme du mot arabe. Nous proposons donc le descripteur de mot arabe (AWD) qui intègre toutes les composantes mentionnées ci-dessus. Il est construit en deux étapes. Tout d’abord, un descripteur de structure (SD) est calculé pour chaque composante connexe (CC) d’une image de mots. Il décrit la forme de la CC en utilisant le modèle de sac-de-mots, où chaque mot visuel représente une structure locale particulière. Ensuite, l’AWD est formé par la concaténation des SDs en utilisant une heuristique efficace, qui différencie implicitement les sous-mots des signes diacritiques. Dans le contexte de la réduction du lexique, l’AWD est utilisé pour indexer une base de données référence. La principale contribution de ce travail est la conception de l’AWD, qui intègre les caractéristiques de bas niveau (structure de la forme du sous-mot) et les informations symboliques (nombre de sous-mots et de signes diacritiques) en un seul descripteur. La méthode proposée possède un faible temps de calcul et elle est facile à implémenter. Elle fournit de meilleures performances pour la réduction du lexique sur deux bases de données d’écriture arabe, à savoir la base de données de sous-mots Ibn Sina et la base de données de mots IFN/ENIT. La dernière partie de cette thèse se concentre sur les caractéristiques visuelles pour la reconnaissance de mots. Un grand nombre de caractéristiques existent dans la littérature, chacune d’elles étant motivées par différents domaines, tels que la reconnaissance des formes, la vision par ordinateur ou l’apprentissage machine. Identifier les approches les plus prometteuses servirait à améliorer la conception de la prochaine génération de caractéristiques. Néanmoins, comme elles sont fondées sur des concepts différents, il est difficile de les comparer de manière théorique, des outils empiriques sont donc nécessaires. Par conséquent, le dernier objectif de la thèse est de fournir une méthode d’évaluation de caractéristiques en fonction de leur force et complémentarité. Un modèle de combinaison a été conçu à cet effet, dans lequel chaque caractéristique est évaluée au travers d’un système référence de reconnaissance, basée sur les réseaux de neurones récurrents. Plus précisément, chaque caractéristique est représentée par un agent, qui est une instance du système de reconnaissance entraînée à partir de cette caractéristique. Les décisions de tous les agents sont combinées en utilisant un vote pondéré. Les poids sont optimisés conjointement au cours d’une phase d’entraînement, afin d’augmenter le vote pondéré de la véritable étiquette de chaque mot. Par conséquent, les poids reflètent la force et la complémentarité des agents et de leurs caractéristiques pour la tâche donnée. Enfin, les poids sont convertis en scores numériques attribués aux caractéristiques, qui sont faciles à interpréter sous ce modèle de combinaison. Au meilleur de notre connaissance, c’est la première méthode d’évaluation de caractéristiques capable de quantifier l’importance de chaque caractéristique, au lieu d’établir un classement basé sur le taux de reconnaissance. Cinq caractéristiques de l’état de l’art ont été testées et nos résultats offrent une perspective intéressante pour la conception de futures caractéristiques. École de technologie supérieure 2014-01-15 Mémoire ou thèse NonPeerReviewed application/pdf http://espace.etsmtl.ca/1273/1/CHHERAWALA_Youssouf.pdf application/pdf http://espace.etsmtl.ca/1273/2/CHHERAWALA_Youssouf%2Dweb.pdf Chherawala, Youssouf (2014). Feature design and lexicon reduction for efficient offline handwriting recognition. Thèse de doctorat électronique, Montréal, École de technologie supérieure. http://espace.etsmtl.ca/1273/ |