Inferência de redes de regulação gênica utilizando métodos de busca e otimização

CNPq === Para melhor entender os mecanismos de controle celular, várias abordagens tem sido desenvolvidas para inferir Redes de Regulação Gênica (GRNs) utilizando dados temporais de expressão gênica. Entretanto, a grande quantidade de genes observados em contraste com as poucas amostras de expressão...

Full description

Bibliographic Details
Main Author: Hattori, Leandro Takeshi
Other Authors: Lopes, Heitor Silvério
Language:Portuguese
Published: Universidade Tecnológica Federal do Paraná 2016
Subjects:
Online Access:http://repositorio.utfpr.edu.br/jspui/handle/1/1837
Description
Summary:CNPq === Para melhor entender os mecanismos de controle celular, várias abordagens tem sido desenvolvidas para inferir Redes de Regulação Gênica (GRNs) utilizando dados temporais de expressão gênica. Entretanto, a grande quantidade de genes observados em contraste com as poucas amostras de expressão gênica disponíveis torna a inferência de GRNs um dos problemas mais importantes na Bioinformática. Nesta dissertação o problema de inferência de GRNs é decomposto em n subproblemas de seleção de características. Para cada subproblema são obtidos os genes preditores para cada gene alvo. O método de seleção de característica é basicamente composto por um algoritmo de busca e a função critério. Neste trabalho foram utilizados algoritmos bioinspirados (DE, BAT e ABC) e de busca sequencial (SFS e SFFS), como função critério foi utilizada a Entropia Condicional Média (MCE). Também foram propostos métodos de pós-processamento para a otimização da GRN inferida pelos algoritmos bioinspirados: o algoritmo de Quine-McCluskey (QM) e uma rede de consenso gerada a partir das redes inferidas pelos algoritmos bioinspirados com a otimização do algoritmo de QM. Para os experimentos de inferência foram exploradas Redes Artificiais Gênicas (AGNs) baseadas em Redes Booleanas Probabilísticas (PBNs), variando características de topologia, média de ligações, número de genes e quantidade de dados de expressão gênica. Os resultados mostraram que o algoritmo DE obteve melhores resultados de precisão quando comparado com os algoritmos sequenciais. Quando comparado com outros algoritmos bioinspirados, o DE também obteve melhores resultados do que o BAT e ABC. No experimento de otimização das redes inferidas pelos algoritmos bioinspirados, o algoritmo de QM apresentou um bom desempenho, removendo genes preditores que não estavam contidos na rede real, levando a uma melhora na precisão da rede inferida e sua similaridade com a rede real. A rede de consenso apresentou resultados de precisão e similaridade melhores do que aqueles obtidos pelos métodos bioinspirados somente. Os resultados alcançados sugerem que a aplicação do método de consenso dos algoritmos bioinspirados com a otimização de QM é bastante promissor para o problema de inferência de GRNs. === For better understanding the mechanics of cellular control, many different approaches have been developed for inferring Gene Regulatory Networks (GRNs), using temporal gene expression data. However, the large amount of genes observed in contrast with the small amount of gene expression samples makes the inference of GRNs one of the most important problems in Bioinformatics. In this dissertation, the inference of GRNs is a problem decomposed in n feature selection sub-problems. For each sub-problem, the predictor genes for each target gene are obtained. Basically, the feature selection method is composed by a search algorithm and a criterion function. In this work we used bioinspired methods (DE, BAT and ABC) and sequential search methods (SFS and SFFS), and the criterion function we used the Mean Conditional Entropy (MCE). Also, we proposed some pos-processing methods for the optimization of the GRN inferred by the bioinspired methods, by using the Quine-McCluskey (QM) algorithm as well as a consensus network generated from the networks inferred by the bioinspired methods and later optimized by the QM. For the inference experiments, we explored Artificial Genic Networks (AGN) based on Probabilistic Boolean Networks (PBNs), changing the features of the topology, the average number of connections, the number of genes, and the amount of gene expression data. Results showed that the DE algorithm obtained better results, regarding accuracy, when compared with the sequential search methods. When compared with the other bioinspired methods, DE also achieved better results than BAT and ABC. For the optimization of the inferred networks by the bioinspired methods, the QM algorithm presented a good performance, removing predictor genes that were not contained in the real network, leading to an improvement of the accuracy of the inferred network, and its similarity with the real one. The consensus network presented accuracy results and similarity even better than those obtained by the bioinspired methods alone. Overall results suggest that the application of the consensus method based on the bioinspired methods together with the QM pos-processing is promising for the GRNs inference problem.