Impact des liens hypertextes sur la précision en recherche d'information.
Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous n...
Main Author: | |
---|---|
Language: | FRE |
Published: |
Université Paris Sud - Paris XI
2008
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00463066 http://tel.archives-ouvertes.fr/docs/00/46/30/66/PDF/these_idir.pdf |
id |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00463066 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004630662013-01-07T18:09:45Z http://tel.archives-ouvertes.fr/tel-00463066 http://tel.archives-ouvertes.fr/docs/00/46/30/66/PDF/these_idir.pdf Impact des liens hypertextes sur la précision en recherche d'information. Chibane, Idir [INFO:INFO_OH] Computer Science/Other Recherche d'Information Systèmes Hypertextes Propagation de Pertinence Collections de Test Algorithme Génétique Segmentation des pages Web Bloc Thématique Analyse des liens Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous nous intéressons aux algorithmes de propagation de pertinence pour des corpus de documents hypertextes, et en particulier à l'analyse des liens afin d'exploiter l'information véhiculée par ses liens et par le voisinage des documents Web. Cependant, les différentes techniques proposées dépendent de paramètres statiques, fixés à priori selon le type de collection et l'organisation des pages Web. Dans cette thèse, nous proposons une nouvelle méthode de propagation de pertinence en utilisant des paramètres calculés dynamiquement, indépendamment de la collection utilisée. En effet, nous proposons de modéliser une fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'un document et le voisinage de ce document. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les documents en fonction du nombre de termes distincts de la requête contenus dans ces documents. Pour traiter l'hétérogénéité des documents Web, nous modélisons les ressources Web à différents niveaux de granularité (site, page, bloc) afin de prendre en compte les différents thèmes contenus dans un même document. Nous proposons aussi une méthode de segmentation thématique des pages Web en utilisant des critères visuels et de représentation du contenu des pages afin d'extraire des blocs thématiques qui seront utilisés pour améliorer les performances de la recherche d'information. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre modèle fournit de bons résultats par rapport aux algorithmes classiques reposant sur le contenu seul d'un document et ceux reposant sur l'analyse des liens (PageRank, HITS, propagation de pertinence). 2008-12-10 FRE PhD thesis Université Paris Sud - Paris XI |
collection |
NDLTD |
language |
FRE |
sources |
NDLTD |
topic |
[INFO:INFO_OH] Computer Science/Other Recherche d'Information Systèmes Hypertextes Propagation de Pertinence Collections de Test Algorithme Génétique Segmentation des pages Web Bloc Thématique Analyse des liens |
spellingShingle |
[INFO:INFO_OH] Computer Science/Other Recherche d'Information Systèmes Hypertextes Propagation de Pertinence Collections de Test Algorithme Génétique Segmentation des pages Web Bloc Thématique Analyse des liens Chibane, Idir Impact des liens hypertextes sur la précision en recherche d'information. |
description |
Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous nous intéressons aux algorithmes de propagation de pertinence pour des corpus de documents hypertextes, et en particulier à l'analyse des liens afin d'exploiter l'information véhiculée par ses liens et par le voisinage des documents Web. Cependant, les différentes techniques proposées dépendent de paramètres statiques, fixés à priori selon le type de collection et l'organisation des pages Web. Dans cette thèse, nous proposons une nouvelle méthode de propagation de pertinence en utilisant des paramètres calculés dynamiquement, indépendamment de la collection utilisée. En effet, nous proposons de modéliser une fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'un document et le voisinage de ce document. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les documents en fonction du nombre de termes distincts de la requête contenus dans ces documents. Pour traiter l'hétérogénéité des documents Web, nous modélisons les ressources Web à différents niveaux de granularité (site, page, bloc) afin de prendre en compte les différents thèmes contenus dans un même document. Nous proposons aussi une méthode de segmentation thématique des pages Web en utilisant des critères visuels et de représentation du contenu des pages afin d'extraire des blocs thématiques qui seront utilisés pour améliorer les performances de la recherche d'information. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre modèle fournit de bons résultats par rapport aux algorithmes classiques reposant sur le contenu seul d'un document et ceux reposant sur l'analyse des liens (PageRank, HITS, propagation de pertinence). |
author |
Chibane, Idir |
author_facet |
Chibane, Idir |
author_sort |
Chibane, Idir |
title |
Impact des liens hypertextes sur la précision en recherche d'information. |
title_short |
Impact des liens hypertextes sur la précision en recherche d'information. |
title_full |
Impact des liens hypertextes sur la précision en recherche d'information. |
title_fullStr |
Impact des liens hypertextes sur la précision en recherche d'information. |
title_full_unstemmed |
Impact des liens hypertextes sur la précision en recherche d'information. |
title_sort |
impact des liens hypertextes sur la précision en recherche d'information. |
publisher |
Université Paris Sud - Paris XI |
publishDate |
2008 |
url |
http://tel.archives-ouvertes.fr/tel-00463066 http://tel.archives-ouvertes.fr/docs/00/46/30/66/PDF/these_idir.pdf |
work_keys_str_mv |
AT chibaneidir impactdeslienshypertextessurlaprecisionenrecherchedinformation |
_version_ |
1716451341758365696 |