Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques

La confidentialité des données est un problème majeur qui doit être considéré avant de rendre publiques les données ou avant de les transmettre à des partenaires tiers avec comme but d'analyser ou de calculer des statistiques sur ces données. Leur confidentialité est principalement préservée en...

Full description

Bibliographic Details
Main Author:	Maag, Maria Coralia Laura
Other Authors:	Paris 6
Language:	en
Published:	2015
Subjects:	Anonymisation Apprentissage artificiel Confidentialité Graphes dynamiques Utilité des données Graphes temporels Anonymization Privacy 004
Online Access:	http://www.theses.fr/2015PA066050/document

id	ndltd-theses.fr-2015PA066050
record_format	oai_dc
spelling	ndltd-theses.fr-2015PA0660502019-12-22T04:45:12Z Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques Automatic Learning of Anonymization for Graphs and Dynamic Graphs Anonymisation Apprentissage artificiel Confidentialité Graphes dynamiques Utilité des données Graphes temporels Anonymization Privacy 004 La confidentialité des données est un problème majeur qui doit être considéré avant de rendre publiques les données ou avant de les transmettre à des partenaires tiers avec comme but d'analyser ou de calculer des statistiques sur ces données. Leur confidentialité est principalement préservée en utilisant des techniques d'anonymisation. Dans ce contexte, un nombre important de techniques d'anonymisation a été proposé dans la littérature. Cependant, des méthodes génériques capables de s'adapter à des situations variées sont souhaitables. Nous adressons le problème de la confidentialité des données représentées sous forme de graphe, données qui nécessitent, pour différentes raisons, d'être rendues publiques. Nous considérons que l'anonymiseur n'a pas accès aux méthodes utilisées pour analyser les données. Une méthodologie générique est proposée basée sur des techniques d'apprentissage artificiel afin d'obtenir directement une fonction d'anonymisation et d'optimiser la balance entre le risque pour la confidentialité et la perte dans l'utilité des données. La méthodologie permet d'obtenir une bonne procédure d'anonymisation pour une large catégorie d'attaques et des caractéristiques à préserver dans un ensemble de données. La méthodologie est instanciée pour des graphes simples et des graphes dynamiques avec une composante temporelle. La méthodologie a été expérimentée avec succès sur des ensembles de données provenant de Twitter, Enron ou Amazon. Les résultats sont comparés avec des méthodes de référence et il est montré que la méthodologie proposée est générique et peut s'adapter automatiquement à différents contextes d'anonymisation. Data privacy is a major problem that has to be considered before releasing datasets to the public or even to a partner company that would compute statistics or make a deep analysis of these data. Privacy is insured by performing data anonymization as required by legislation. In this context, many different anonymization techniques have been proposed in the literature. These techniques are difficult to use in a general context where attacks can be of different types, and where measures are not known to the anonymizer. Generic methods able to adapt to different situations become desirable. We are addressing the problem of privacy related to graph data which needs, for different reasons, to be publicly made available. This corresponds to the anonymized graph data publishing problem. We are placing from the perspective of an anonymizer not having access to the methods used to analyze the data. A generic methodology is proposed based on machine learning to obtain directly an anonymization function from a set of training data so as to optimize a tradeoff between privacy risk and utility loss. The method thus allows one to get a good anonymization procedure for any kind of attacks, and any characteristic in a given set. The methodology is instantiated for simple graphs and complex timestamped graphs. A tool has been developed implementing the method and has been experimented with success on real anonymized datasets coming from Twitter, Enron or Amazon. Results are compared with baseline and it is showed that the proposed method is generic and can automatically adapt itself to different anonymization contexts. Electronic Thesis or Dissertation Text en http://www.theses.fr/2015PA066050/document Maag, Maria Coralia Laura 2015-04-08 Paris 6 Gallinari, Patrick Denoyer, Ludovic
collection	NDLTD
language	en
sources	NDLTD
topic	Anonymisation Apprentissage artificiel Confidentialité Graphes dynamiques Utilité des données Graphes temporels Anonymization Privacy 004
spellingShingle	Anonymisation Apprentissage artificiel Confidentialité Graphes dynamiques Utilité des données Graphes temporels Anonymization Privacy 004 Maag, Maria Coralia Laura Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques
description	La confidentialité des données est un problème majeur qui doit être considéré avant de rendre publiques les données ou avant de les transmettre à des partenaires tiers avec comme but d'analyser ou de calculer des statistiques sur ces données. Leur confidentialité est principalement préservée en utilisant des techniques d'anonymisation. Dans ce contexte, un nombre important de techniques d'anonymisation a été proposé dans la littérature. Cependant, des méthodes génériques capables de s'adapter à des situations variées sont souhaitables. Nous adressons le problème de la confidentialité des données représentées sous forme de graphe, données qui nécessitent, pour différentes raisons, d'être rendues publiques. Nous considérons que l'anonymiseur n'a pas accès aux méthodes utilisées pour analyser les données. Une méthodologie générique est proposée basée sur des techniques d'apprentissage artificiel afin d'obtenir directement une fonction d'anonymisation et d'optimiser la balance entre le risque pour la confidentialité et la perte dans l'utilité des données. La méthodologie permet d'obtenir une bonne procédure d'anonymisation pour une large catégorie d'attaques et des caractéristiques à préserver dans un ensemble de données. La méthodologie est instanciée pour des graphes simples et des graphes dynamiques avec une composante temporelle. La méthodologie a été expérimentée avec succès sur des ensembles de données provenant de Twitter, Enron ou Amazon. Les résultats sont comparés avec des méthodes de référence et il est montré que la méthodologie proposée est générique et peut s'adapter automatiquement à différents contextes d'anonymisation. === Data privacy is a major problem that has to be considered before releasing datasets to the public or even to a partner company that would compute statistics or make a deep analysis of these data. Privacy is insured by performing data anonymization as required by legislation. In this context, many different anonymization techniques have been proposed in the literature. These techniques are difficult to use in a general context where attacks can be of different types, and where measures are not known to the anonymizer. Generic methods able to adapt to different situations become desirable. We are addressing the problem of privacy related to graph data which needs, for different reasons, to be publicly made available. This corresponds to the anonymized graph data publishing problem. We are placing from the perspective of an anonymizer not having access to the methods used to analyze the data. A generic methodology is proposed based on machine learning to obtain directly an anonymization function from a set of training data so as to optimize a tradeoff between privacy risk and utility loss. The method thus allows one to get a good anonymization procedure for any kind of attacks, and any characteristic in a given set. The methodology is instantiated for simple graphs and complex timestamped graphs. A tool has been developed implementing the method and has been experimented with success on real anonymized datasets coming from Twitter, Enron or Amazon. Results are compared with baseline and it is showed that the proposed method is generic and can automatically adapt itself to different anonymization contexts.
author2	Paris 6
author_facet	Paris 6 Maag, Maria Coralia Laura
author	Maag, Maria Coralia Laura
author_sort	Maag, Maria Coralia Laura
title	Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques
title_short	Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques
title_full	Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques
title_fullStr	Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques
title_full_unstemmed	Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques
title_sort	apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques
publishDate	2015
url	http://www.theses.fr/2015PA066050/document
work_keys_str_mv	AT maagmariacoralialaura apprentissageautomatiquedefonctionsdanonymisationpourlesgraphesetlesgraphesdynamiques AT maagmariacoralialaura automaticlearningofanonymizationforgraphsanddynamicgraphs
_version_	1719305565679648768

Apprentissage automatique de fonctions d'anonymisation pour les graphes et les graphes dynamiques

Similar Items