Impact des liens hypertextes sur la précision en recherche d'information.

Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous n...

Full description

Bibliographic Details
Main Author: Chibane, Idir
Language:FRE
Published: Université Paris Sud - Paris XI 2008
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00463066
http://tel.archives-ouvertes.fr/docs/00/46/30/66/PDF/these_idir.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00463066
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004630662013-01-07T18:09:45Z http://tel.archives-ouvertes.fr/tel-00463066 http://tel.archives-ouvertes.fr/docs/00/46/30/66/PDF/these_idir.pdf Impact des liens hypertextes sur la précision en recherche d'information. Chibane, Idir [INFO:INFO_OH] Computer Science/Other Recherche d'Information Systèmes Hypertextes Propagation de Pertinence Collections de Test Algorithme Génétique Segmentation des pages Web Bloc Thématique Analyse des liens Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous nous intéressons aux algorithmes de propagation de pertinence pour des corpus de documents hypertextes, et en particulier à l'analyse des liens afin d'exploiter l'information véhiculée par ses liens et par le voisinage des documents Web. Cependant, les différentes techniques proposées dépendent de paramètres statiques, fixés à priori selon le type de collection et l'organisation des pages Web. Dans cette thèse, nous proposons une nouvelle méthode de propagation de pertinence en utilisant des paramètres calculés dynamiquement, indépendamment de la collection utilisée. En effet, nous proposons de modéliser une fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'un document et le voisinage de ce document. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les documents en fonction du nombre de termes distincts de la requête contenus dans ces documents. Pour traiter l'hétérogénéité des documents Web, nous modélisons les ressources Web à différents niveaux de granularité (site, page, bloc) afin de prendre en compte les différents thèmes contenus dans un même document. Nous proposons aussi une méthode de segmentation thématique des pages Web en utilisant des critères visuels et de représentation du contenu des pages afin d'extraire des blocs thématiques qui seront utilisés pour améliorer les performances de la recherche d'information. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre modèle fournit de bons résultats par rapport aux algorithmes classiques reposant sur le contenu seul d'un document et ceux reposant sur l'analyse des liens (PageRank, HITS, propagation de pertinence). 2008-12-10 FRE PhD thesis Université Paris Sud - Paris XI
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_OH] Computer Science/Other
Recherche d'Information
Systèmes Hypertextes
Propagation de Pertinence
Collections de Test
Algorithme Génétique
Segmentation des pages Web
Bloc Thématique
Analyse des liens
spellingShingle [INFO:INFO_OH] Computer Science/Other
Recherche d'Information
Systèmes Hypertextes
Propagation de Pertinence
Collections de Test
Algorithme Génétique
Segmentation des pages Web
Bloc Thématique
Analyse des liens
Chibane, Idir
Impact des liens hypertextes sur la précision en recherche d'information.
description Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous nous intéressons aux algorithmes de propagation de pertinence pour des corpus de documents hypertextes, et en particulier à l'analyse des liens afin d'exploiter l'information véhiculée par ses liens et par le voisinage des documents Web. Cependant, les différentes techniques proposées dépendent de paramètres statiques, fixés à priori selon le type de collection et l'organisation des pages Web. Dans cette thèse, nous proposons une nouvelle méthode de propagation de pertinence en utilisant des paramètres calculés dynamiquement, indépendamment de la collection utilisée. En effet, nous proposons de modéliser une fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'un document et le voisinage de ce document. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les documents en fonction du nombre de termes distincts de la requête contenus dans ces documents. Pour traiter l'hétérogénéité des documents Web, nous modélisons les ressources Web à différents niveaux de granularité (site, page, bloc) afin de prendre en compte les différents thèmes contenus dans un même document. Nous proposons aussi une méthode de segmentation thématique des pages Web en utilisant des critères visuels et de représentation du contenu des pages afin d'extraire des blocs thématiques qui seront utilisés pour améliorer les performances de la recherche d'information. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre modèle fournit de bons résultats par rapport aux algorithmes classiques reposant sur le contenu seul d'un document et ceux reposant sur l'analyse des liens (PageRank, HITS, propagation de pertinence).
author Chibane, Idir
author_facet Chibane, Idir
author_sort Chibane, Idir
title Impact des liens hypertextes sur la précision en recherche d'information.
title_short Impact des liens hypertextes sur la précision en recherche d'information.
title_full Impact des liens hypertextes sur la précision en recherche d'information.
title_fullStr Impact des liens hypertextes sur la précision en recherche d'information.
title_full_unstemmed Impact des liens hypertextes sur la précision en recherche d'information.
title_sort impact des liens hypertextes sur la précision en recherche d'information.
publisher Université Paris Sud - Paris XI
publishDate 2008
url http://tel.archives-ouvertes.fr/tel-00463066
http://tel.archives-ouvertes.fr/docs/00/46/30/66/PDF/these_idir.pdf
work_keys_str_mv AT chibaneidir impactdeslienshypertextessurlaprecisionenrecherchedinformation
_version_ 1716451341758365696