Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits

Malgré l'entrée récente de notre monde dans l'ère du tout numérique, de nombreux documents manuscrits continuent à s'échanger, obligeant nos sociétés et administrations à faire face au traitement de ces masses de documents. Le traitement automatique de ces documents nécessite d'a...

Full description

Bibliographic Details
Main Author: Thomas, S.
Language:FRE
Published: Université de Rouen 2012
Subjects:
HMM
Online Access:http://tel.archives-ouvertes.fr/tel-00863502
http://tel.archives-ouvertes.fr/docs/00/86/35/02/PDF/Thomasim.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00863502
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-008635022013-09-20T15:04:42Z http://tel.archives-ouvertes.fr/tel-00863502 http://tel.archives-ouvertes.fr/docs/00/86/35/02/PDF/Thomasim.pdf Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits Thomas, S. [INFO:INFO_TS] Computer Science/Signal and Image Processing [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [INFO:INFO_TT] Computer Science/Document and Text Processing Reconnaissance de l'écriture keyword spotting HMM architectures profondes modèle hybride Malgré l'entrée récente de notre monde dans l'ère du tout numérique, de nombreux documents manuscrits continuent à s'échanger, obligeant nos sociétés et administrations à faire face au traitement de ces masses de documents. Le traitement automatique de ces documents nécessite d'accéder à un échantillon inconnu mais pertinent de leur contenu et implique de prendre en compte trois points essentiels : la segmentation du document en entités comparable à l'information recherchée, la reconnaissance de ces entités recherchées et le rejet des entités non pertinentes. Nous nous démarquons des approches classiques de lecture complète de documents et de détection de mots clés en parallélisant ces trois traitements en une approche d'extraction d'information. Une première contribution réside dans la conception d'un modèle de ligne générique pour l'extraction d'information et l'implémentation d'un système complet à base de modèles de Markov cachés (MMC) construit autour de ce modèle. Le module de reconnaissance cherche, en une seule passe, à discriminer l'information pertinente, caractérisée par un ensemble de requêtes alphabétiques, numériques ou alphanumériques, de l'information non pertinente, caractérisée par un modèle de remplissage. Une seconde contribution réside dans l'amélioration de la discrimination locale des observations des lignes par l'utilisation d'un réseau de neurones profond. Ce dernier permet également d'inférer une représentation de haut niveau des observations et donc d'automatiser le processus d'extraction des caractéristiques. Il en résulte un système complet, générique et industrialisable, répondant à des besoins émergents dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des documents non-contraints. 2012-07-12 FRE PhD thesis Université de Rouen
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_TS] Computer Science/Signal and Image Processing
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[INFO:INFO_TT] Computer Science/Document and Text Processing
Reconnaissance de l'écriture
keyword spotting
HMM
architectures profondes
modèle hybride
spellingShingle [INFO:INFO_TS] Computer Science/Signal and Image Processing
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[INFO:INFO_TT] Computer Science/Document and Text Processing
Reconnaissance de l'écriture
keyword spotting
HMM
architectures profondes
modèle hybride
Thomas, S.
Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits
description Malgré l'entrée récente de notre monde dans l'ère du tout numérique, de nombreux documents manuscrits continuent à s'échanger, obligeant nos sociétés et administrations à faire face au traitement de ces masses de documents. Le traitement automatique de ces documents nécessite d'accéder à un échantillon inconnu mais pertinent de leur contenu et implique de prendre en compte trois points essentiels : la segmentation du document en entités comparable à l'information recherchée, la reconnaissance de ces entités recherchées et le rejet des entités non pertinentes. Nous nous démarquons des approches classiques de lecture complète de documents et de détection de mots clés en parallélisant ces trois traitements en une approche d'extraction d'information. Une première contribution réside dans la conception d'un modèle de ligne générique pour l'extraction d'information et l'implémentation d'un système complet à base de modèles de Markov cachés (MMC) construit autour de ce modèle. Le module de reconnaissance cherche, en une seule passe, à discriminer l'information pertinente, caractérisée par un ensemble de requêtes alphabétiques, numériques ou alphanumériques, de l'information non pertinente, caractérisée par un modèle de remplissage. Une seconde contribution réside dans l'amélioration de la discrimination locale des observations des lignes par l'utilisation d'un réseau de neurones profond. Ce dernier permet également d'inférer une représentation de haut niveau des observations et donc d'automatiser le processus d'extraction des caractéristiques. Il en résulte un système complet, générique et industrialisable, répondant à des besoins émergents dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des documents non-contraints.
author Thomas, S.
author_facet Thomas, S.
author_sort Thomas, S.
title Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits
title_short Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits
title_full Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits
title_fullStr Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits
title_full_unstemmed Extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits
title_sort extraction d'information dans des documents manuscrits non contraints : application au traitement automatique des courriers entrants manuscrits
publisher Université de Rouen
publishDate 2012
url http://tel.archives-ouvertes.fr/tel-00863502
http://tel.archives-ouvertes.fr/docs/00/86/35/02/PDF/Thomasim.pdf
work_keys_str_mv AT thomass extractiondinformationdansdesdocumentsmanuscritsnoncontraintsapplicationautraitementautomatiquedescourriersentrantsmanuscrits
_version_ 1716597683765903360