Reasoning about big data flows : TOM4A recursive abstraction based problem solving method

Ce document concerne le développement d'un cadre mathématique spécifiant une technologie capable de prendre en charge quelques unes des problématiques relevant du domaine des grands flux de données. Nous proposons de combiner le point de vue ontologique de Newell et celui épistémologique de Flo...

Full description

Bibliographic Details
Main Author: Vilar, Fabien
Other Authors: Aix-Marseille
Language:en
Published: 2018
Subjects:
Online Access:http://www.theses.fr/2018AIXM0667/document
Description
Summary:Ce document concerne le développement d'un cadre mathématique spécifiant une technologie capable de prendre en charge quelques unes des problématiques relevant du domaine des grands flux de données. Nous proposons de combiner le point de vue ontologique de Newell et celui épistémologique de Floridi d'abstraction pour construire des outils de transformation de modéles au moyen d'un ensemble adéquats de foncteurs au sens de la théorie des catégories de Samuel Eilenberg et Saunders Mac Lane. La méthode de résolution de problème proposée est basée sur un raisonnement d'abstraction temps réel qui produit, en ligne, une réduction d'un grand nombre de données sémantiquement pauvres en une donnée unique équivalente mais sémantiquement plus riche. Le prix à payer pour un tel enrichissement sémantique de l'information est la perte d'information syntaxique (i.e. le phénoméne d'oubli). Nos contributions sont les suivantes: (i) la démonstration que le concept d'observateur unaire de la théorie des observations datées (TOT) de Le Goc joue le même rôle qu'un échantillonneur de Dirac, (ii) la construction de la catégorie $TOT(\mathbb{Z})$, adéquate à la formulation du processus d'abstraction proposé et (iii) la conception de la méthode de résolution de problème TOM4A (timed observations methodology for abstraction) dont une application concrète est présentée visant à découvrir et modéliser le problème complexe de la fraude interne dans le domaine bancaire === This document concerns the development of a theoretical mathematical framework to provide a technology able to manage some of the problematics of the big data flows domain. We propose to combine Newell's ontological and Floridi's epistemological point of views of abstraction to build tools that transform models by the mean of an adequate set of functors according to Samuel Eilenberg and Saunders Mac Lane's category theory. The proposed problem solving method relies on a real time abstraction reasoning process to resume, on line, a lot of semantically poor data into an equivalent but richer one. The price to pay for such an information semantic enrichment is the loss of syntactic data (i.e. the oversight phenomenon). Our contributions are (i) to prove that Le Goc's timed observations theory (TOT) concept of unary observer plays the same role as Dirac's sampler, (ii) the construction of the $TOT(\mathbb{Z})$ category that is adequate to formulate the proposed abstraction based PSM and (iii) the design of TOM4A (timed observations methodology for abstraction), a specific recursive abstraction-reification based PSM whose a concrete application has been provided for detecting and modeling the complex problem of internal frauds in the banking industry