Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées

Les problèmes que nous considérons dans cette thèse sont de nature combinatoire. Notre principal intérêt est le problème de restructuration de données semi-structurées. Par exemple des données stockées sous la forme d'un fichier XML sont des données semi-structurées. Ce problème peut être ramen...

Full description

Bibliographic Details
Main Author:	Gay, Jean-Christophe
Language:	fra
Published:	Université Blaise Pascal - Clermont-Ferrand II 2011
Subjects:	[INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre P-médian Algorithme du Volume Relaxation linéaire Implémentation parallèle Base de donnée semi-structurée
Online Access:	http://tel.archives-ouvertes.fr/tel-00720204 http://tel.archives-ouvertes.fr/docs/00/72/02/04/PDF/2011CLF22171-_-_Gay.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00720204
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-007202042014-10-14T03:48:21Z http://tel.archives-ouvertes.fr/tel-00720204 2011CLF22171 http://tel.archives-ouvertes.fr/docs/00/72/02/04/PDF/2011CLF22171-_-_Gay.pdf Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées Gay, Jean-Christophe [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre P-médian Algorithme du Volume Relaxation linéaire Implémentation parallèle Base de donnée semi-structurée Les problèmes que nous considérons dans cette thèse sont de nature combinatoire. Notre principal intérêt est le problème de restructuration de données semi-structurées. Par exemple des données stockées sous la forme d'un fichier XML sont des données semi-structurées. Ce problème peut être ramené à une instance du problème du p-médian. Le principal obstacle ici est la taille des instances qui peut devenir très grande. Certaines instances peuvent avoir jusqu'à 10000 ou 20000 sommets, ce qui implique plusieurs centaines de millions de variables. Pour ces instances, résoudre ne serait-ce que la relaxation linéaire du problème est très difficile. Lors d'expériences préliminaires nous nous sommes rendu compte que CPLEX peut résoudre des instances avec 1000 sommets dans des temps raisonnables. Mais pour des instances de 5000 sommets, il peut prendre jusqu'à 14 jours pour résoudre uniquement la relaxation linéaire. Pour ces raisons nous ne pouvons utiliser de méthodes qui considère la résolution de la relaxation linéaire comme une opération de base, comme par exemple les méthodes de coupes et de branchements. Au lieu d'utiliser CPLEX nous utilisons une implémentation parallèle (utilisant 32 processeurs) de l'algorithme du Volume. L'instance pour laquelle CPLEX demande 14 heures est résolue en 24 minutes par l'implémentation séquentielle et en 10 minutes par l'implémentation parallèle de l'algorithme du Volume. La solution de la relaxation linéaire est utilisée pour construire une solution réalisable, grâce à l'application d'une heuristique de construction gloutonne puis d'une recherche locale. Nous obtenons des résultats comparables aux résultats obtenus par les meilleures heuristiques connues à ce jour, qui utilisent beaucoup plus de mémoire et réalisent beaucoup plus d'opérations. La mémoire est importante dans notre cas, puisque nous travaillons sur des données de très grandes tailles. Nous étudions le dominant du polytope associé au problème du p-médian. Nous discutons de sa relaxation linéaire ainsi que de sa caractérisation polyédrale. Enfin, nous considérons une version plus réaliste du problème de restructuration de données semi-structurées. Grosso modo, nous ajoutons au problème du p-médian original des nouveaux sommets s'ils aident à réduire le coût global des affectations. 2011-10-19 fra PhD thesis Université Blaise Pascal - Clermont-Ferrand II
collection	NDLTD
language	fra
sources	NDLTD
topic	[INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre P-médian Algorithme du Volume Relaxation linéaire Implémentation parallèle Base de donnée semi-structurée
spellingShingle	[INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre P-médian Algorithme du Volume Relaxation linéaire Implémentation parallèle Base de donnée semi-structurée Gay, Jean-Christophe Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
description	Les problèmes que nous considérons dans cette thèse sont de nature combinatoire. Notre principal intérêt est le problème de restructuration de données semi-structurées. Par exemple des données stockées sous la forme d'un fichier XML sont des données semi-structurées. Ce problème peut être ramené à une instance du problème du p-médian. Le principal obstacle ici est la taille des instances qui peut devenir très grande. Certaines instances peuvent avoir jusqu'à 10000 ou 20000 sommets, ce qui implique plusieurs centaines de millions de variables. Pour ces instances, résoudre ne serait-ce que la relaxation linéaire du problème est très difficile. Lors d'expériences préliminaires nous nous sommes rendu compte que CPLEX peut résoudre des instances avec 1000 sommets dans des temps raisonnables. Mais pour des instances de 5000 sommets, il peut prendre jusqu'à 14 jours pour résoudre uniquement la relaxation linéaire. Pour ces raisons nous ne pouvons utiliser de méthodes qui considère la résolution de la relaxation linéaire comme une opération de base, comme par exemple les méthodes de coupes et de branchements. Au lieu d'utiliser CPLEX nous utilisons une implémentation parallèle (utilisant 32 processeurs) de l'algorithme du Volume. L'instance pour laquelle CPLEX demande 14 heures est résolue en 24 minutes par l'implémentation séquentielle et en 10 minutes par l'implémentation parallèle de l'algorithme du Volume. La solution de la relaxation linéaire est utilisée pour construire une solution réalisable, grâce à l'application d'une heuristique de construction gloutonne puis d'une recherche locale. Nous obtenons des résultats comparables aux résultats obtenus par les meilleures heuristiques connues à ce jour, qui utilisent beaucoup plus de mémoire et réalisent beaucoup plus d'opérations. La mémoire est importante dans notre cas, puisque nous travaillons sur des données de très grandes tailles. Nous étudions le dominant du polytope associé au problème du p-médian. Nous discutons de sa relaxation linéaire ainsi que de sa caractérisation polyédrale. Enfin, nous considérons une version plus réaliste du problème de restructuration de données semi-structurées. Grosso modo, nous ajoutons au problème du p-médian original des nouveaux sommets s'ils aident à réduire le coût global des affectations.
author	Gay, Jean-Christophe
author_facet	Gay, Jean-Christophe
author_sort	Gay, Jean-Christophe
title	Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_short	Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_full	Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_fullStr	Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_full_unstemmed	Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_sort	résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
publisher	Université Blaise Pascal - Clermont-Ferrand II
publishDate	2011
url	http://tel.archives-ouvertes.fr/tel-00720204 http://tel.archives-ouvertes.fr/docs/00/72/02/04/PDF/2011CLF22171-_-_Gay.pdf
work_keys_str_mv	AT gayjeanchristophe resolutionduproblemedupmedianapplicationalarestructurationdebasesdedonneessemistructurees
_version_	1716717999066447872

Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées

Similar Items