Annotation Semantique de Documents Semi-Structurés pour la recherche d'information
Le web sémantique est défini par un ensemble de méthodes et de technologies permettant à des agents logiciels de raisonner sur le contenu des ressources du Web. Cette vision du Web dépend de la construction des ontologies et de l'utilisation de métadonnées pour représenter ces ressources. L...
Main Author: | |
---|---|
Language: | FRE |
Published: |
Université Paris Sud - Paris XI
2010
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00542932 http://tel.archives-ouvertes.fr/docs/00/54/29/32/PDF/These_MT8dec2010.pdf |
id |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00542932 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-005429322013-01-07T17:50:36Z http://tel.archives-ouvertes.fr/tel-00542932 http://tel.archives-ouvertes.fr/docs/00/54/29/32/PDF/These_MT8dec2010.pdf Annotation Semantique de Documents Semi-Structurés pour la recherche d'information Thiam, Mouhamadou [INFO:INFO_HC] Computer Science/Human-Computer Interaction Web semantique Annotation semantique Documents Semi-structures RDF RDFS Le web sémantique est défini par un ensemble de méthodes et de technologies permettant à des agents logiciels de raisonner sur le contenu des ressources du Web. Cette vision du Web dépend de la construction des ontologies et de l'utilisation de métadonnées pour représenter ces ressources. L'objectif de notre travail de thèse est d'annoter sémantiquement des documents balisés et relatifs au même domaine. Ces documents peuvent comporter des parties bien structurées et d'autres textuelles. Nous supposons disposer d'une ontologie de domaine définie par des concepts, des relations entre ces concepts et des propriétés. Cette ontologie comporte une composante lexicale où chaque concept est accompagné de labels, d'un ensemble d'entités nommées (EN) et de termes du domaine. Nous avons défini une approche automatique SHIRI-Extract qui permet d'extraire des termes et des EN de manière indépendante du domaine et de les aligner aux concepts de l'ontologie. L'alignement utilise la composante lexicale ou le Web pour découvrir de nouveaux termes. Nous avons défini un modèle d'annotation représentant les résultats d'extraction et d'annotation. Les métadonnées de ce modèle distinguent les nœuds selon que les termes ou les EN agrégés dans un même nœud sont alignés avec un ou plusieurs concepts différents. Elles permettent également d'annoter la relation de voisinage entre les nœuds. Nous avons défini SHIRI-Annot, un ensemble de règles déclaratives pour annoter les nœuds et leurs relations. La base d'annotations RDF(S) construite peut être interrogée à l'aide de requêtes SPARQL. L'évaluation a porté sur une collection de documents portant sur des appels à participation à des conférences. 2010-12-09 FRE PhD thesis Université Paris Sud - Paris XI |
collection |
NDLTD |
language |
FRE |
sources |
NDLTD |
topic |
[INFO:INFO_HC] Computer Science/Human-Computer Interaction Web semantique Annotation semantique Documents Semi-structures RDF RDFS |
spellingShingle |
[INFO:INFO_HC] Computer Science/Human-Computer Interaction Web semantique Annotation semantique Documents Semi-structures RDF RDFS Thiam, Mouhamadou Annotation Semantique de Documents Semi-Structurés pour la recherche d'information |
description |
Le web sémantique est défini par un ensemble de méthodes et de technologies permettant à des agents logiciels de raisonner sur le contenu des ressources du Web. Cette vision du Web dépend de la construction des ontologies et de l'utilisation de métadonnées pour représenter ces ressources. L'objectif de notre travail de thèse est d'annoter sémantiquement des documents balisés et relatifs au même domaine. Ces documents peuvent comporter des parties bien structurées et d'autres textuelles. Nous supposons disposer d'une ontologie de domaine définie par des concepts, des relations entre ces concepts et des propriétés. Cette ontologie comporte une composante lexicale où chaque concept est accompagné de labels, d'un ensemble d'entités nommées (EN) et de termes du domaine. Nous avons défini une approche automatique SHIRI-Extract qui permet d'extraire des termes et des EN de manière indépendante du domaine et de les aligner aux concepts de l'ontologie. L'alignement utilise la composante lexicale ou le Web pour découvrir de nouveaux termes. Nous avons défini un modèle d'annotation représentant les résultats d'extraction et d'annotation. Les métadonnées de ce modèle distinguent les nœuds selon que les termes ou les EN agrégés dans un même nœud sont alignés avec un ou plusieurs concepts différents. Elles permettent également d'annoter la relation de voisinage entre les nœuds. Nous avons défini SHIRI-Annot, un ensemble de règles déclaratives pour annoter les nœuds et leurs relations. La base d'annotations RDF(S) construite peut être interrogée à l'aide de requêtes SPARQL. L'évaluation a porté sur une collection de documents portant sur des appels à participation à des conférences. |
author |
Thiam, Mouhamadou |
author_facet |
Thiam, Mouhamadou |
author_sort |
Thiam, Mouhamadou |
title |
Annotation Semantique de Documents Semi-Structurés pour la recherche d'information |
title_short |
Annotation Semantique de Documents Semi-Structurés pour la recherche d'information |
title_full |
Annotation Semantique de Documents Semi-Structurés pour la recherche d'information |
title_fullStr |
Annotation Semantique de Documents Semi-Structurés pour la recherche d'information |
title_full_unstemmed |
Annotation Semantique de Documents Semi-Structurés pour la recherche d'information |
title_sort |
annotation semantique de documents semi-structurés pour la recherche d'information |
publisher |
Université Paris Sud - Paris XI |
publishDate |
2010 |
url |
http://tel.archives-ouvertes.fr/tel-00542932 http://tel.archives-ouvertes.fr/docs/00/54/29/32/PDF/These_MT8dec2010.pdf |
work_keys_str_mv |
AT thiammouhamadou annotationsemantiquededocumentssemistructurespourlarecherchedinformation |
_version_ |
1716397510388350976 |