Summary: | L'inférence de la causalité est une problématique récurrente pour un large éventail de domaines où les méthodes d'interventions ou d'acquisition de données temporelles sont inapplicables. Toutefois, établir des relations de causalité uniquement à partir de données d'observation peut se révéler être une tâche complexe. Je présente ici une méthode d'apprentissage de réseaux qui combine les avantages des méthodes d'inférence par identification de contraintes structurales et par optimisation de scores bayésiens pour reconstruire de manière robuste des réseaux causaux malgré le bruit d'échantillonnage inhérent aux données d'observation. Cette méthode repose sur l'identification de v-structures à l'aide de l'information (conditionnelle) à trois variables, une mesure issue de la théorie de l'information, qui est négative quand elle est associée à un collider et positive sinon. Cette approche soustrait itérativement l'information conditionnelle à trois variables la plus forte à l'information conditionnelle à deux variables entre chaque paire de noeuds. Les indépendences conditionnelles sont progressivement calculées en collectant les contributions les plus fortes. Le squelette est ensuite partiellement orienté et ces orientations sont propagées aux liens non orientés selon le signe et la force de l'interaction dans les triplets ouverts. Cette approche obtient de meilleurs résultats que les méthodes par contraintes ou optimisation de score sur un ensemble de réseaux benchmark et fournit des prédictions prometteuses pour des systèmes biologiques complexes, tels que les réseaux neuronaux du poisson zèbre ou l'inférence des cascades de mutations dans les tumeurs. === The inference of causality is an everyday life question that spans a broad range of domains for which interventions or time-series acquisition may be impracticable if not unethical. Yet, elucidating causal relationships in real-life complex systems can be convoluted when relying solely on observational data. I report here a novel network reconstruction method, which combines constraint-based and Bayesian frameworks to reliably reconstruct networks despite inherent sampling noise in finite observational datasets. The approach is based on an information theory result tracing back the existence of colliders in graphical models to negative conditional 3-point information between observed variables. This enables to confidently ascertain structural independencies in causal graphs, based on the ranking of their most likely contributing nodes with (significantly) positive conditional 3-point information. Dispensible edges from a complete undirected graph are progressively pruned by iteratively taking off the most likely positive conditional 3-point information from the 2-point (mutual) information between each pair of nodes. The resulting skeleton is then partially directed by orienting and propagating edge directions based on the sign and magnitude of the conditional 3-point information of unshielded triples. This new approach outperforms constraint-based and Bayesian inference methods on a range of benchmark networks and provides promising predictions when applied to the reconstruction of complex biological systems, such as hematopoietic regulatory subnetworks, zebrafish neural networks, mutational pathways or the interplay of genomic properties on the evolution of vertebrates.
|