Improving species distribution model quality with a parallel linear genetic programming-fuzzy algorithm.

Biodiversity, the variety of life on the planet, is declining due to climate change, population and species interactions and as the result f demographic and landscape dynamics. Integrated model-based assessments play a key role in understanding and exploring these complex dynamics and have proven us...

Full description

Bibliographic Details
Main Author: Bieleveld, Michel Jan Marinus
Other Authors: Saraiva, Antonio Mauro
Format: Others
Language:en
Published: Biblioteca Digitais de Teses e Dissertações da USP 2016
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/3/3141/tde-26012017-113329/
Description
Summary:Biodiversity, the variety of life on the planet, is declining due to climate change, population and species interactions and as the result f demographic and landscape dynamics. Integrated model-based assessments play a key role in understanding and exploring these complex dynamics and have proven use in conservation planning. Model-based assessments using Species Distribution Models constitute an efficient means of translating limited point data to distribution probability maps for current and future scenarios in support of conservation decision making. The aims of this doctoral study were to investigate; (1) the use of a hybrid genetic programming to build high quality models that handle noisy real-world presence and absence data, (2) the extension of this solution to exploit the parallelism inherent to genetic programming for fast scenario based decision making tasks, and (3) a conceptual framework to share models in the hope of enabling research synthesis. Subsequent to this, the quality of the method, evaluated with the true skill statistic, was examined with two case studies. The first with a dataset obtained by defining a virtual species, and the second with data extracted from the North American Breeding Bird Survey relating to mourning dove (Zenaida macroura). In these studies, the produced models effectively predicted the species distribution up to 30% of error rate both presence and absence samples. The parallel implementation based on a twenty-node c3.xlarge Amazon EC2 StarCluster showed a linear speedup due to the multiple-deme coarse-grained design. The hybrid fuzzy genetic programming algorithm generated under certain consitions during the case studies significantly better transferable models. === Biodiversidade, a variedade de vida no planeta, está em declínio às alterações climáticas, mudanças nas interações das populações e espécies, bem como nas alterações demográficas e na dinâmica de paisagens. Avaliações integradas baseadas em modelo desempenham um papel fundamental na compreensão e na exploração destas dinâmicas complexas e tem o seu uso comprovado no planejamento de conservação da biodiversidade. Os objetivos deste estudo de doutorado foram investigar; (1) o uso de técnicas de programação genética e fuzzy para construir modelos de alta qualidade que lida com presença e ausência de dados ruidosos do mundo real, (2) a extensão desta solução para explorar o paralelismo inerente à programação genética para acelerar tomadas de decisão e (3) um framework conceitual para compartilhar modelos, na expectativa de permitir a síntese de pesquisa. Subsequentemente, a qualidade do método, avaliada com a true skill statistic, foi examinado com dois estudos de caso. O primeiro utilizou um conjunto de dados fictícios obtidos a partir da definição de uma espécie virtual, e o segundo utilizou dados de uma espécie de pomba (Zenaida macroura) obtidos do North American Breeding Bird Survey. Nestes estudos, os modelos foram capazes de predizer a distribuição das espécies maneira correta mesmo utilizando bases de dados com até 30% de erros nas amostras de presença e de ausência. A implementação paralela utilizando um cluster de vinte nós c3.xlarge Amazon EC2 StarCluster, mostrou uma aceleração linear devido ao arquitetura de múltiplos deme de granulação grossa. O algoritmo de programação genética e fuzzy gerada em determinadas condições durante os estudos de caso, foram significativamente melhores na transferência do que os algoritmos do BIOMOD.