Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées

Les problèmes que nous considérons dans cette thèse sont de nature combinatoire. Notre principal intérêt est le problème de restructuration de données semi-structurées. Par exemple des données stockées sous la forme d'un fichier XML sont des données semi-structurées. Ce problème peut être ramen...

Full description

Bibliographic Details
Main Author: Gay, Jean-Christophe
Language:fra
Published: Université Blaise Pascal - Clermont-Ferrand II 2011
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00720204
http://tel.archives-ouvertes.fr/docs/00/72/02/04/PDF/2011CLF22171-_-_Gay.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00720204
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-007202042014-10-14T03:48:21Z http://tel.archives-ouvertes.fr/tel-00720204 2011CLF22171 http://tel.archives-ouvertes.fr/docs/00/72/02/04/PDF/2011CLF22171-_-_Gay.pdf Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées Gay, Jean-Christophe [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre P-médian Algorithme du Volume Relaxation linéaire Implémentation parallèle Base de donnée semi-structurée Les problèmes que nous considérons dans cette thèse sont de nature combinatoire. Notre principal intérêt est le problème de restructuration de données semi-structurées. Par exemple des données stockées sous la forme d'un fichier XML sont des données semi-structurées. Ce problème peut être ramené à une instance du problème du p-médian. Le principal obstacle ici est la taille des instances qui peut devenir très grande. Certaines instances peuvent avoir jusqu'à 10000 ou 20000 sommets, ce qui implique plusieurs centaines de millions de variables. Pour ces instances, résoudre ne serait-ce que la relaxation linéaire du problème est très difficile. Lors d'expériences préliminaires nous nous sommes rendu compte que CPLEX peut résoudre des instances avec 1000 sommets dans des temps raisonnables. Mais pour des instances de 5000 sommets, il peut prendre jusqu'à 14 jours pour résoudre uniquement la relaxation linéaire. Pour ces raisons nous ne pouvons utiliser de méthodes qui considère la résolution de la relaxation linéaire comme une opération de base, comme par exemple les méthodes de coupes et de branchements. Au lieu d'utiliser CPLEX nous utilisons une implémentation parallèle (utilisant 32 processeurs) de l'algorithme du Volume. L'instance pour laquelle CPLEX demande 14 heures est résolue en 24 minutes par l'implémentation séquentielle et en 10 minutes par l'implémentation parallèle de l'algorithme du Volume. La solution de la relaxation linéaire est utilisée pour construire une solution réalisable, grâce à l'application d'une heuristique de construction gloutonne puis d'une recherche locale. Nous obtenons des résultats comparables aux résultats obtenus par les meilleures heuristiques connues à ce jour, qui utilisent beaucoup plus de mémoire et réalisent beaucoup plus d'opérations. La mémoire est importante dans notre cas, puisque nous travaillons sur des données de très grandes tailles. Nous étudions le dominant du polytope associé au problème du p-médian. Nous discutons de sa relaxation linéaire ainsi que de sa caractérisation polyédrale. Enfin, nous considérons une version plus réaliste du problème de restructuration de données semi-structurées. Grosso modo, nous ajoutons au problème du p-médian original des nouveaux sommets s'ils aident à réduire le coût global des affectations. 2011-10-19 fra PhD thesis Université Blaise Pascal - Clermont-Ferrand II
collection NDLTD
language fra
sources NDLTD
topic [INFO:INFO_OH] Computer Science/Other
[INFO:INFO_OH] Informatique/Autre
P-médian
Algorithme du Volume
Relaxation linéaire
Implémentation parallèle
Base de donnée semi-structurée
spellingShingle [INFO:INFO_OH] Computer Science/Other
[INFO:INFO_OH] Informatique/Autre
P-médian
Algorithme du Volume
Relaxation linéaire
Implémentation parallèle
Base de donnée semi-structurée
Gay, Jean-Christophe
Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
description Les problèmes que nous considérons dans cette thèse sont de nature combinatoire. Notre principal intérêt est le problème de restructuration de données semi-structurées. Par exemple des données stockées sous la forme d'un fichier XML sont des données semi-structurées. Ce problème peut être ramené à une instance du problème du p-médian. Le principal obstacle ici est la taille des instances qui peut devenir très grande. Certaines instances peuvent avoir jusqu'à 10000 ou 20000 sommets, ce qui implique plusieurs centaines de millions de variables. Pour ces instances, résoudre ne serait-ce que la relaxation linéaire du problème est très difficile. Lors d'expériences préliminaires nous nous sommes rendu compte que CPLEX peut résoudre des instances avec 1000 sommets dans des temps raisonnables. Mais pour des instances de 5000 sommets, il peut prendre jusqu'à 14 jours pour résoudre uniquement la relaxation linéaire. Pour ces raisons nous ne pouvons utiliser de méthodes qui considère la résolution de la relaxation linéaire comme une opération de base, comme par exemple les méthodes de coupes et de branchements. Au lieu d'utiliser CPLEX nous utilisons une implémentation parallèle (utilisant 32 processeurs) de l'algorithme du Volume. L'instance pour laquelle CPLEX demande 14 heures est résolue en 24 minutes par l'implémentation séquentielle et en 10 minutes par l'implémentation parallèle de l'algorithme du Volume. La solution de la relaxation linéaire est utilisée pour construire une solution réalisable, grâce à l'application d'une heuristique de construction gloutonne puis d'une recherche locale. Nous obtenons des résultats comparables aux résultats obtenus par les meilleures heuristiques connues à ce jour, qui utilisent beaucoup plus de mémoire et réalisent beaucoup plus d'opérations. La mémoire est importante dans notre cas, puisque nous travaillons sur des données de très grandes tailles. Nous étudions le dominant du polytope associé au problème du p-médian. Nous discutons de sa relaxation linéaire ainsi que de sa caractérisation polyédrale. Enfin, nous considérons une version plus réaliste du problème de restructuration de données semi-structurées. Grosso modo, nous ajoutons au problème du p-médian original des nouveaux sommets s'ils aident à réduire le coût global des affectations.
author Gay, Jean-Christophe
author_facet Gay, Jean-Christophe
author_sort Gay, Jean-Christophe
title Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_short Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_full Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_fullStr Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_full_unstemmed Résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
title_sort résolution du problème du p-médian, application à la restructuration de bases de données semi-structurées
publisher Université Blaise Pascal - Clermont-Ferrand II
publishDate 2011
url http://tel.archives-ouvertes.fr/tel-00720204
http://tel.archives-ouvertes.fr/docs/00/72/02/04/PDF/2011CLF22171-_-_Gay.pdf
work_keys_str_mv AT gayjeanchristophe resolutionduproblemedupmedianapplicationalarestructurationdebasesdedonneessemistructurees
_version_ 1716717999066447872