Contribution à l'analyse complexe de documents anciens, application aux lettrines

De nombreux projets de numérisation sont actuellement menés en France et en Europe pour sauvegarder le contenu de dizaines de milliers de documents anciens. Les images de ces documents sont utilisées par les historiens pour identifier l'historique des livres. Cette thèse s'inscrit dans le...

Full description

Bibliographic Details
Main Author: Coustaty, Mickaël
Language:FRE
Published: Université de La Rochelle 2011
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00691922
http://tel.archives-ouvertes.fr/docs/00/69/19/22/PDF/2011Coustaty22160.pdf
Description
Summary:De nombreux projets de numérisation sont actuellement menés en France et en Europe pour sauvegarder le contenu de dizaines de milliers de documents anciens. Les images de ces documents sont utilisées par les historiens pour identifier l'historique des livres. Cette thèse s'inscrit dans le projet Navidomass (ANR-06-MDCA-012) qui a pour but de valoriser le patrimoine écrit français de la Renaissance, en proposant d'identifier ses images pour les indexer. Dans le cadre de cette thèse, nous nous sommes particulièrement intéressés aux images graphiques. Ces documents,qui sont apparus avec le début de l'imprimerie, sont composées d'images complexes puisque composées de différentes couches d'informations (images de traits).Afin de répondre à ce problème, nous proposons un modèle ontologique d'analyse complexe d'images de documents anciens. Ce modèle permet d'intégrer dans une même base les connaissances propres aux historiens, et les connaissances extraites par des traitements d'images. De par la nature complexe de ces images, les méthodes habituelles d'analyse d'images et d'extraction automatique de connaissances sont inopérantes. Nous proposons donc une nouvelle approche d'analyse des images de documents anciens qui permet de les caractériser à partir de leurs spécificités. Cette approche commence par simplifier les images en les séparant en différentes couches d'informations (formes et traits). Puis, pour chaque couche, nous venons extraire des motifs utilisés pour décrire les images. Ainsi, les images sont caractérisées à l'aide de sacs de motifs fréquents, et de sacs de traits. Pour ces deux couches d'informations, nous venons également extraire des graphes de régions qui permettent d'extraire une connaissance structurelle des images. La complexification de ces deux descriptions est insérée dans la base de connaissances, pour permettre des requêtes complexes. Le but de cette base est de proposer à l'utilisateur de rechercher une image en indiquant soit un exemple d'images recherchées, soit des éléments caractéristiques des images.