Calcul de centralité et identification de structures de communautés dans les graphes de documents

Dans cette thèse, nous nous intéressons à la caractérisation de grandes collections de documents (en utilisant les liens entre ces derniers) afin de faciliter leur utilisation et leur exploitation par des humains ou par des outils informatiques. Dans un premier temps, nous avons abordé la problémati...

Full description

Bibliographic Details
Main Author:	Chikhi, Nacim Fateh
Language:	FRE
Published:	Université Paul Sabatier - Toulouse III 2010
Subjects:	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Calcul de centralité Identification de structures de communautés Graphes de documents Analyse de liens Extraction de connaissances à partir de textes Modèles génératifs Marches aléatoires Effet TKC (Tightly Knit Community)
Online Access:	http://tel.archives-ouvertes.fr/tel-00619177 http://tel.archives-ouvertes.fr/docs/00/61/91/77/PDF/These_Nacim_Chikhi_v8.0.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00619177
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-006191772013-01-07T17:35:06Z http://tel.archives-ouvertes.fr/tel-00619177 http://tel.archives-ouvertes.fr/docs/00/61/91/77/PDF/These_Nacim_Chikhi_v8.0.pdf Calcul de centralité et identification de structures de communautés dans les graphes de documents Chikhi, Nacim Fateh [INFO:INFO_HC] Computer Science/Human-Computer Interaction Calcul de centralité Identification de structures de communautés Graphes de documents Analyse de liens Extraction de connaissances à partir de textes Modèles génératifs Marches aléatoires Effet TKC (Tightly Knit Community) Dans cette thèse, nous nous intéressons à la caractérisation de grandes collections de documents (en utilisant les liens entre ces derniers) afin de faciliter leur utilisation et leur exploitation par des humains ou par des outils informatiques. Dans un premier temps, nous avons abordé la problématique du calcul de centralité dans les graphes de documents. Nous avons décrit les principaux algorithmes de calcul de centralité existants en mettant l'accent sur le problème TKC (Tightly Knit Community) dont souffre la plupart des mesures de centralité récentes. Ensuite, nous avons proposé trois nouveaux algorithmes de calcul de centralité (MHITS, NHITS et DocRank) permettant d'affronter le phénomène TKC. Les différents algorithmes proposés ont été évalués et comparés aux approches existantes. Des critères d'évaluation ont notamment été proposés pour mesurer l'effet TKC. Dans un deuxième temps, nous nous sommes intéressés au problème de la classification non supervisée de documents. Plus précisément, nous avons envisagé ce regroupement comme une tâche d'identification de structures de communautés (ISC) dans les graphes de documents. Nous avons décrit les principales approches d'ISC existantes en distinguant les approches basées sur un modèle génératif des approches algorithmiques ou classiques. Puis, nous avons proposé un modèle génératif (SPCE) basé sur le lissage et sur une initialisation appropriée pour l'ISC dans des graphes de faible densité. Le modèle SPCE a été évalué et validé en le comparant à d'autres approches d'ISC. Enfin, nous avons montré que le modèle SPCE pouvait être étendu pour prendre en compte simultanément les liens et les contenus des documents. 2010-12-17 FRE PhD thesis Université Paul Sabatier - Toulouse III
collection	NDLTD
language	FRE
sources	NDLTD
topic	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Calcul de centralité Identification de structures de communautés Graphes de documents Analyse de liens Extraction de connaissances à partir de textes Modèles génératifs Marches aléatoires Effet TKC (Tightly Knit Community)
spellingShingle	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Calcul de centralité Identification de structures de communautés Graphes de documents Analyse de liens Extraction de connaissances à partir de textes Modèles génératifs Marches aléatoires Effet TKC (Tightly Knit Community) Chikhi, Nacim Fateh Calcul de centralité et identification de structures de communautés dans les graphes de documents
description	Dans cette thèse, nous nous intéressons à la caractérisation de grandes collections de documents (en utilisant les liens entre ces derniers) afin de faciliter leur utilisation et leur exploitation par des humains ou par des outils informatiques. Dans un premier temps, nous avons abordé la problématique du calcul de centralité dans les graphes de documents. Nous avons décrit les principaux algorithmes de calcul de centralité existants en mettant l'accent sur le problème TKC (Tightly Knit Community) dont souffre la plupart des mesures de centralité récentes. Ensuite, nous avons proposé trois nouveaux algorithmes de calcul de centralité (MHITS, NHITS et DocRank) permettant d'affronter le phénomène TKC. Les différents algorithmes proposés ont été évalués et comparés aux approches existantes. Des critères d'évaluation ont notamment été proposés pour mesurer l'effet TKC. Dans un deuxième temps, nous nous sommes intéressés au problème de la classification non supervisée de documents. Plus précisément, nous avons envisagé ce regroupement comme une tâche d'identification de structures de communautés (ISC) dans les graphes de documents. Nous avons décrit les principales approches d'ISC existantes en distinguant les approches basées sur un modèle génératif des approches algorithmiques ou classiques. Puis, nous avons proposé un modèle génératif (SPCE) basé sur le lissage et sur une initialisation appropriée pour l'ISC dans des graphes de faible densité. Le modèle SPCE a été évalué et validé en le comparant à d'autres approches d'ISC. Enfin, nous avons montré que le modèle SPCE pouvait être étendu pour prendre en compte simultanément les liens et les contenus des documents.
author	Chikhi, Nacim Fateh
author_facet	Chikhi, Nacim Fateh
author_sort	Chikhi, Nacim Fateh
title	Calcul de centralité et identification de structures de communautés dans les graphes de documents
title_short	Calcul de centralité et identification de structures de communautés dans les graphes de documents
title_full	Calcul de centralité et identification de structures de communautés dans les graphes de documents
title_fullStr	Calcul de centralité et identification de structures de communautés dans les graphes de documents
title_full_unstemmed	Calcul de centralité et identification de structures de communautés dans les graphes de documents
title_sort	calcul de centralité et identification de structures de communautés dans les graphes de documents
publisher	Université Paul Sabatier - Toulouse III
publishDate	2010
url	http://tel.archives-ouvertes.fr/tel-00619177 http://tel.archives-ouvertes.fr/docs/00/61/91/77/PDF/These_Nacim_Chikhi_v8.0.pdf
work_keys_str_mv	AT chikhinacimfateh calculdecentraliteetidentificationdestructuresdecommunautesdanslesgraphesdedocuments
_version_	1716396277705474048

Calcul de centralité et identification de structures de communautés dans les graphes de documents

Similar Items