Summary: | Dans cette thèse nous avons étudié la diffusion de l'information dans les grands graphes de terrain, en se focalisant sur les patterns structurels de la propagation. Sur le plan empirique, il s'est avéré difficile de capturer la structure des cascades de diffusion en termes de mesures simples. Sur le plan théorique, l'approche classique consiste à étudier des modèles stochastiques de contagion. Néanmoins, l'analyse formelle de ces modèles reste limité, car les graphes de terrain ont généralement une topologie complexe et le processus de diffusion se produit dans une fenêtre de temps limitée. Par conséquent, une meilleure compréhension des données empiriques, des modèles théoriques et du lien entre les deux est également cruciale pour la caractérisation de la diffusion dans les grands graphes de terrain. Après un état de l'art sur les graphes de terrain et la diffusion dans ce contexte au premier chapitre, nous décrivons notre jeu de données et discutons sa pertinence au chapitre 2. Ensuite, dans le chapitre 3, nous évaluons la pertinence du modèle SIR simple et de deux extensions qui prennent en compte des hétérogénéités de notre jeu de données. Dans le chapitre 4, nous explorons la prise en compte du temps dans l'évolution du réseau sous-jacent et dans le modèle de diffusion. Dans le chapitre 5, nous évaluons l'impacte de la structure du graphe sous-jacent sur la structure des cascades de diffusion générées avec les modèles étudiés dans les chapitres précédents. Nous terminons la thèse par un bilan des résultats et des perspectives ouvertes par les travaux menés dans cette thèse. === Understanding information diffusion on complex networks is a key issue from a theoretical and applied perspective. Epidemiology-inspired SIR models have been proposed to model information diffusion. Recent papers have analyzed this question from a data-driven perspective. We complement these findings investigating if epidemic models calibrate with a systematic procedure are capable of reproducing key spreading cascade properties. We first identify a large-scale, rich dataset from which we can reconstruct the diffusion trail and the underlying network. Secondly, we examine the simple SIR model as a baseline model and conclude that it was unable to generate structurally realistic spreading cascades. We found the same result examining model extensions to which take into account heterogeneities observed in the data. In contrast, other models which take into account time patterns available in the data generate qualitatively more similar cascades. Although one key property was not reproduced in any model, this result highlights the importance of taking time patterns into account. We have also analyzed the impact of the underlying network structure on the models examined. In our data the observed cascades were constrained in time, so we could not rely on the theoretical results relating the asymptotic behavior of the epidemic and network topological features. Performing simulations we assessed the impact of these common topological properties in time-bounded epidemic and identified that the distribution of neighbors of seed nodes had the most impact among the investigated properties in our context. We conclude discussing identifying perspectives opened by this work.
|