Segmentation en lignes de documents anciens : application aux documents arabes

L'indexation de documents numérisés manuscrits pose le problème de la segmentation en lignes qui, si elle échoue, handicape les étapes suivantes d'extraction et de reconnaissance de mots. Dans les documents arabe anciens, s'ajoute à ce problème, la présence dans les marges, d'ann...

Full description

Bibliographic Details
Main Author: Ouwayed, Nazih
Language:FRE
Published: Université Nancy II 2010
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00495972
http://tel.archives-ouvertes.fr/docs/00/49/59/72/PDF/thesis-nazih.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00495972
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004959722013-01-07T17:59:42Z http://tel.archives-ouvertes.fr/tel-00495972 http://tel.archives-ouvertes.fr/docs/00/49/59/72/PDF/thesis-nazih.pdf Segmentation en lignes de documents anciens : application aux documents arabes Ouwayed, Nazih [INFO:INFO_HC] Computer Science/Human-Computer Interaction documents arabes manuscrits extraction de lignes estimation de l'orientation modèle de contour actif (snake) distribution de Wigner-Ville connexion de lignes L'indexation de documents numérisés manuscrits pose le problème de la segmentation en lignes qui, si elle échoue, handicape les étapes suivantes d'extraction et de reconnaissance de mots. Dans les documents arabe anciens, s'ajoute à ce problème, la présence dans les marges, d'annotations souvent composées de lignes obliques. La détection de ces lignes est nécessaire et constitue un défi important pour l'indexation de ces documents. Ainsi, la segmentation visée dans ce travail de thèse concerne l'extraction de lignes multi-orientées. Pour ce problème, la bibliographie ne présente que des techniques rudimentaires basées essentiellement sur une projection directe de l'image du document suivant une seule direction et donc non applicable à du texte multi-orienté. Devant ce manque, nous avons proposé une approche adaptative permettant de localiser d'abord les zones d'orientation différentes, puis de s'appuyer sur chaque orientation locale pour extraire les lignes. Pendant ma thèse, j'ai développé les points suivants : – Application d'un maillage automatique en utilisant le modèle de contour actif (snake). – Préparation du signal de profil de projection en supprimant tous les pixels qui ne sont pas nécessaires dans le calcul de l'orientation. Ensuite, application de toutes les distributions d'énergie de la classe de Cohen sur le profil de projection pour trouver la meilleure distribution qui donne l'orientation. – Application de quelques règles d'extension pour trouver les zones. – Extraction des lignes en se basant sur un algorithme de suivi des composantes connexes. – Séparation de lignes 2010-06-11 FRE PhD thesis Université Nancy II
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_HC] Computer Science/Human-Computer Interaction
documents arabes manuscrits
extraction de lignes
estimation de l'orientation
modèle de contour actif (snake)
distribution de Wigner-Ville
connexion de lignes
spellingShingle [INFO:INFO_HC] Computer Science/Human-Computer Interaction
documents arabes manuscrits
extraction de lignes
estimation de l'orientation
modèle de contour actif (snake)
distribution de Wigner-Ville
connexion de lignes
Ouwayed, Nazih
Segmentation en lignes de documents anciens : application aux documents arabes
description L'indexation de documents numérisés manuscrits pose le problème de la segmentation en lignes qui, si elle échoue, handicape les étapes suivantes d'extraction et de reconnaissance de mots. Dans les documents arabe anciens, s'ajoute à ce problème, la présence dans les marges, d'annotations souvent composées de lignes obliques. La détection de ces lignes est nécessaire et constitue un défi important pour l'indexation de ces documents. Ainsi, la segmentation visée dans ce travail de thèse concerne l'extraction de lignes multi-orientées. Pour ce problème, la bibliographie ne présente que des techniques rudimentaires basées essentiellement sur une projection directe de l'image du document suivant une seule direction et donc non applicable à du texte multi-orienté. Devant ce manque, nous avons proposé une approche adaptative permettant de localiser d'abord les zones d'orientation différentes, puis de s'appuyer sur chaque orientation locale pour extraire les lignes. Pendant ma thèse, j'ai développé les points suivants : – Application d'un maillage automatique en utilisant le modèle de contour actif (snake). – Préparation du signal de profil de projection en supprimant tous les pixels qui ne sont pas nécessaires dans le calcul de l'orientation. Ensuite, application de toutes les distributions d'énergie de la classe de Cohen sur le profil de projection pour trouver la meilleure distribution qui donne l'orientation. – Application de quelques règles d'extension pour trouver les zones. – Extraction des lignes en se basant sur un algorithme de suivi des composantes connexes. – Séparation de lignes
author Ouwayed, Nazih
author_facet Ouwayed, Nazih
author_sort Ouwayed, Nazih
title Segmentation en lignes de documents anciens : application aux documents arabes
title_short Segmentation en lignes de documents anciens : application aux documents arabes
title_full Segmentation en lignes de documents anciens : application aux documents arabes
title_fullStr Segmentation en lignes de documents anciens : application aux documents arabes
title_full_unstemmed Segmentation en lignes de documents anciens : application aux documents arabes
title_sort segmentation en lignes de documents anciens : application aux documents arabes
publisher Université Nancy II
publishDate 2010
url http://tel.archives-ouvertes.fr/tel-00495972
http://tel.archives-ouvertes.fr/docs/00/49/59/72/PDF/thesis-nazih.pdf
work_keys_str_mv AT ouwayednazih segmentationenlignesdedocumentsanciensapplicationauxdocumentsarabes
_version_ 1716397796479729664