Aplicação de métodos estatísticos e computacionais para o estudo da cis-regulação da expressão gênica

Ferramentas bioinformática têm se tornado a escolha para auxiliar pesquisadores tanto para a anotação de novos genes, como para estudar genes em condições fisiológicas de interesse. Entre essas ferramentas destacam-se os algoritmos de agrupamento filogenético e os algoritmos de predição de padrões...

Full description

Bibliographic Details
Main Author: Almeida, Marcio Augusto Afonso de
Other Authors: Oliveira, Paulo Sérgio Lopes de
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2010
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/95/95131/tde-14122010-095648/
Description
Summary:Ferramentas bioinformática têm se tornado a escolha para auxiliar pesquisadores tanto para a anotação de novos genes, como para estudar genes em condições fisiológicas de interesse. Entre essas ferramentas destacam-se os algoritmos de agrupamento filogenético e os algoritmos de predição de padrões curtos de DNA, como, por exemplo, predições de sítios para ligação de fatores de transcrição. Desenvolver uma abordagem mista com o objetivo de agrupar genes baseando-se unicamente nos sinais transcricionais preditos em suas seqüências é um desafio de difícil transposição. No presente trabalho, apresentamos nossos resultados para tentar superar tal limitação que podem ser subdividos em duas seções: a primeira aonde desenvolvemos uma abordagem para a melhoria das predições computacionais de sítios de ligação e a segunda, onde passamos a agrupar genes com base nos seus sinais transcricionais preditos em seqüências conservadas flanqueadoras. A primeira seção de nosso trabalho foi focada no estudo de uma seqüência de indução de transcrição próxima ao gene Aldh1a2 de camundongo aonde foram preditos sítios para fatores de transcrição que foram posteriormente testados biologicamente e se mostraram associados ao controle da expressão desse gene. A partir de uma profunda pesquisa bibliográfica, nós determinamos um grupo de 57 fatores de transcrição já associados com a especialização de subpopulações de neurônios durante o desenvolvimento neuroembrionário de vertebrados. Nossa abordagem de seleção de sítios de alto valor biológico foi agora testada em seqüências conservadas próximas a cada um desses genes que codificam esses fatores de transcrição associados e os sítios de ligação para fatores de transcrição foram preditos. Tais sítios foram contabilizados e utilizados com entrada para nossa abordagem de agrupamento. A análise dos resultados do agrupamento determinou que, nossa abordagem se mostrou suficientemente sensível para construir uma árvore solução com boas relações com os padrões, já conhecidos, de expressão para esses genes agrupados. Essa abordagem poderá ser utilizada tanto para anotar funcionalmente genes de interesse quanto para minerar informações dentro de um grupo de genes previamente selecionado. === Bioinformatics tools are becoming the choice for aiding scientists for gene annotation and for studying gene in physiological conditions of interest. Among those efforts, phylogenetics clustering algorithms and tools for predicting short DNA patterns, such as binding sites for transcription factor, are outlined as essential. To develop a mixture procedure merging this two distant fields of bioinformatics research is a challenge hard to overcome. In the present study, we present our results of trying to overcome such limitation and it be easily subdivided in two distinct sections: initially we develop a procedure to improve the computational prediction of binding site for transcription factors and the second one where genes were grouped based solely in their transcriptional patterns predicted in conserved flanking sequences. The first section of the present study was focused in the study of an enhancer near Aldh1a2 gene in mouse where binding sites were predicted and latter biologically tested and showed strong influence in expression control of this gene. By a comprehensive bibliographic research we determined a group of 57 transcription factors which were already associated with neuron subpopulations specialization during the neuroembryonary development in vertebrates. Our computational procedure for selection of high biological value binding sites was applied in conserved flanking sequence in each of these genes encoding these associated transcription factors and a large group of binding sites were predicted. This sites were counted and use as an input for our clustering procedure. Clustering results analyses determined that our procedure showed to be sufficiently sensible to construct a solution tree showing good relations with, already determined, expression patterns of grouped genes. This procedure could be for functionally annotation of genes and for data mining in a group of already determined genes of interest.