Summary: | Cette thèse s'inscrit dans un partenariat entre l'INRA et l'INRIA et dans le champs de l'extraction de connaissances à partir de bases de données spatiales. La problématique porte sur la caractérisation et la simulation de paysages agricoles. Plus précisément, nous nous concentrons sur des lignes qui structurent le paysage agricole, telles que les routes, les fossés d'irrigation et les haies. Notre objectif est de modéliser les haies en raison de leur rôle dans de nombreux processus écologiques et environnementaux. Nous étudions les moyens de caractériser les structures de haies sur deux paysages agricoles contrastés, l'un situé dans le sud-Est de la France (majoritairement composé de vergers) et le second en Bretagne (Ouest de la France, de type bocage). Nous déterminons également si, et dans quelles circonstances, la répartition spatiale des haies est structurée par la position des éléments linéaires plus pérennes du paysage tels que les routes et les fossés et l'échelle de ces structures. La démarche d'extraction de connaissances à partir de base de données (ECBD) mise en place comporte différentes étapes de prétraitement et de fouille de données, alliant des méthodes mathématiques et informatiques. La première partie du travail de thèse se concentre sur la création d'un indice spatial statistique, fondé sur une notion géométrique de voisinage et permettant la caractérisation des structures de haies. Celui-Ci a permis de décrire les structures de haies dans le paysage et les résultats montrent qu'elles dépendent des éléments plus pérennes à courte distance et que le voisinage des haies est uniforme au-Delà de 150 mètres. En outre différentes structures de voisinage ont été mises en évidence selon les principales orientations de haies dans le sud-Est de la France, mais pas en Bretagne. La seconde partie du travail de thèse a exploré l'intérêt du couplage de méthodes de linéarisation avec des méthodes de Markov. Les méthodes de linéarisation ont été introduites avec l'utilisation d'une variante des courbes de Hilbert : les chemins de Hilbert adaptatifs. Les données spatiales linéaires ainsi construites ont ensuite été traitées avec les méthodes de Markov. Ces dernières ont l'avantage de pouvoir servir à la fois pour l'apprentissage sur les données réelles et pour la génération de données, dans le cadre, par exemple, de la simulation d'un paysage. Les résultats montrent que ces méthodes couplées permettant un apprentissage et une génération automatique qui capte des caractéristiques des différents paysages. Les premières simulations sont encourageantes malgré le besoin d'un post-Traitement. Finalement, ce travail de thèse a permis la création d'une méthode d'exploration de données spatiales basée sur différents outils et prenant en charge toutes les étapes de l'ECBD classique, depuis la sélection des données jusqu'à la visualisation des résultats. De plus, la construction de cette méthode est telle qu'elle peut servir à son tour à la génération de données, volet nécessaire pour la simulation de paysage === This thesis is part of a partnership between INRA and INRIA in the field of knowledge extraction from spatial databases. The study focuses on the characterization and simulation of agricultural landscapes. More specifically, we focus on linears that structure the agricultural landscape, such as roads, irrigation ditches and hedgerows. Our goal is to model the spatial distribution of hedgerows because of their role in many ecological and environmental processes. We more specifically study how to characterize the spatial structure of hedgerows in two contrasting agricultural landscapes, one located in south-Eastern France (mainly composed of orchards) and the second in Brittany (western France, \emph{bocage}-Type). We determine if the spatial distribution of hedgerows is structured by the position of the more perennial linear landscape features, such as roads and ditches, or not. In such a case, we also detect the circumstances under which this spatial distribution is structured and the scale of these structures. The implementation of the process of Knowledge Discovery in Databases (KDD) is comprised of different preprocessing steps and data mining algorithms which combine mathematical and computational methods. The first part of the thesis focuses on the creation of a statistical spatial index, based on a geometric neighborhood concept and allowing the characterization of structures of hedgerows. Spatial index allows to describe the structures of hedgerows in the landscape. The results show that hedgerows depend on more permanent linear elements at short distances, and that their neighborhood is uniform beyond 150 meters. In addition different neighborhood structures have been identified depending on the orientation of hedgerows in the South-East of France but not in Brittany. The second part of the thesis explores the potential of coupling linearization methods with Markov methods. The linearization methods are based on the use of alternative Hilbert curves: Hilbert adaptive paths. The linearized spatial data thus constructed were then treated with Markov methods. These methods have the advantage of being able to serve both for the machine learning and for the generation of new data, for example in the context of the simulation of a landscape. The results show that the combination of these methods for learning and automatic generation of hedgerows captures some characteristics of the different study landscapes. The first simulations are encouraging despite the need for post-Processing. Finally, this work has enabled the creation of a spatial data mining method based on different tools that support all stages of a classic KDD, from the selection of data to the visualization of results. Furthermore, this method was constructed in such a way that it can also be used for data generation, a component necessary for the simulation of landscapes
|