Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas

Fatores de transcrição (FT) são proteínas que se ligam em sequências específicas e bem conservadas de nucleotídeos no DNA, denominadas sítios de ligação dos fatores de transcrição (SLFT), localizadas em regiões de regulação gênica conhecidas como módulos cis-reguladores (CRM). Ao reconhecer o SL...

Full description

Bibliographic Details
Main Author: Antonio Ferrão Neto
Other Authors: Ariane Machado Lima
Language:Portuguese
Published: Universidade de São Paulo 2017
Subjects:
CRM
PWM
Online Access:http://www.teses.usp.br/teses/disponiveis/95/95131/tde-02012018-144349/
id ndltd-IBICT-oai-teses.usp.br-tde-02012018-144349
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic CRM
Enhancer
Fator de transcrição
Gramáticas regulares
Módulos cis-regulatórios
Motivos
PWM
Sítios de ligação de fatores de transcrição
cis-regulatory modules
CRM
Enhancer
Motifs
PWM
Regular grammars
Transcription factor
Transcription factor binding sites
spellingShingle CRM
Enhancer
Fator de transcrição
Gramáticas regulares
Módulos cis-regulatórios
Motivos
PWM
Sítios de ligação de fatores de transcrição
cis-regulatory modules
CRM
Enhancer
Motifs
PWM
Regular grammars
Transcription factor
Transcription factor binding sites
Antonio Ferrão Neto
Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
description Fatores de transcrição (FT) são proteínas que se ligam em sequências específicas e bem conservadas de nucleotídeos no DNA, denominadas sítios de ligação dos fatores de transcrição (SLFT), localizadas em regiões de regulação gênica conhecidas como módulos cis-reguladores (CRM). Ao reconhecer o SLFT, o fator de transcrição se liga naquele sítio e influencia a transcrição gênica positiva ou negativamente. Existem técnicas experimentais para a identificação dos locais dos SLFTs em um genoma, como footprinting, ChIP-chip ou ChIP-seq. Entretanto, a execução de tais técnicas implica em custos e tempo elevados. Alternativamente, pode-se utilizar as sequências de SLFTs já conhecidas para um determinado fator de transcrição e aplicar técnicas de aprendizado computacional supervisionado para criar um modelo computacional para tal sítio e então realizar a predição computacional no genoma. Entretanto, a maioria das ferramentas computacionais existentes para esse fim considera independência entre as posições entre os nucleotídeos de um sítio - como as baseadas em PWMs (position weight matrix) - o que não é necessariamente verdade. Este projeto teve como objetivo avaliar a utilização de gramáticas regulares estocásticas (GRE) como técnica alternativa às PWMs neste problema, uma vez que GREs são capazes de caracterizar dependências entre posições consecutivas dos sítios. Embora as diferenças de desempenho tenham sido sutis, GREs parecem mesmo ser mais adequadas do que PWMs na presença de valores mais altos de dependência de bases, e PWMs nos demais casos. Por fim, uma ferramenta de predição computacional de SLFTs foi criada baseada tanto em GREs quanto em PWMs. === Transcription factors (FT) are proteins that bind to specific and well-conserved sequences of nucleotides in the DNA, called transcription factor binding sites (TFBS), contained in regions of gene regulation known as cis-regulatory modules (CRM). By recognizing TFBA, the transcription factor binds to that site and positively or negatively influence the gene transcription. There are experimental procedures for the identification of TFBS in a genome such as footprinting, ChIP-chip or ChIP-Seq. However, the implementation of these techniques involves high costs and time. Alternatively, one may utilize the TFBS sequences already known for a particular transcription factor and applying computational supervised learning techniques to create a computational model for that site and then perform the computational prediction in the genome. However, most existing software tools for this purpose considers independence between nucleotide positions in the site - such as those based on PWMs (position weight matrix) - which is not necessarily true. This project aimed to evaluate the use of stochastic regular grammars (SRG) as an alternative technique to PWMs in this problem, since SRGs are able to characterize dependencies between consecutive positions in the sites. Although differences in performance have been subtle, SRGs appear to be more suitable than PWMs in the presence of higher base dependency values, and PWMs in other cases. Finally, a computational TFBS prediction tool was created based on both SRGs and PWMs.
author2 Ariane Machado Lima
author_facet Ariane Machado Lima
Antonio Ferrão Neto
author Antonio Ferrão Neto
author_sort Antonio Ferrão Neto
title Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_short Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_full Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_fullStr Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_full_unstemmed Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_sort predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
publisher Universidade de São Paulo
publishDate 2017
url http://www.teses.usp.br/teses/disponiveis/95/95131/tde-02012018-144349/
work_keys_str_mv AT antonioferraoneto predicaocomputacionaldesitiosdeligacaodefatoresdetranscricaobaseadaemgramaticasregularesestocasticas
AT antonioferraoneto computationalpredictionoftranscriptionfactorbindingsitesbasedonstochasticregulargrammars
_version_ 1718888355633037312
spelling ndltd-IBICT-oai-teses.usp.br-tde-02012018-1443492019-01-21T21:50:20Z Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas Computational prediction of transcription factor binding sites based on stochastic regular grammars Antonio Ferrão Neto Ariane Machado Lima Luiz Paulo Moura Andrioli Luciano Antonio Digiampietri Tatiana Teixeira Torres CRM Enhancer Fator de transcrição Gramáticas regulares Módulos cis-regulatórios Motivos PWM Sítios de ligação de fatores de transcrição cis-regulatory modules CRM Enhancer Motifs PWM Regular grammars Transcription factor Transcription factor binding sites Fatores de transcrição (FT) são proteínas que se ligam em sequências específicas e bem conservadas de nucleotídeos no DNA, denominadas sítios de ligação dos fatores de transcrição (SLFT), localizadas em regiões de regulação gênica conhecidas como módulos cis-reguladores (CRM). Ao reconhecer o SLFT, o fator de transcrição se liga naquele sítio e influencia a transcrição gênica positiva ou negativamente. Existem técnicas experimentais para a identificação dos locais dos SLFTs em um genoma, como footprinting, ChIP-chip ou ChIP-seq. Entretanto, a execução de tais técnicas implica em custos e tempo elevados. Alternativamente, pode-se utilizar as sequências de SLFTs já conhecidas para um determinado fator de transcrição e aplicar técnicas de aprendizado computacional supervisionado para criar um modelo computacional para tal sítio e então realizar a predição computacional no genoma. Entretanto, a maioria das ferramentas computacionais existentes para esse fim considera independência entre as posições entre os nucleotídeos de um sítio - como as baseadas em PWMs (position weight matrix) - o que não é necessariamente verdade. Este projeto teve como objetivo avaliar a utilização de gramáticas regulares estocásticas (GRE) como técnica alternativa às PWMs neste problema, uma vez que GREs são capazes de caracterizar dependências entre posições consecutivas dos sítios. Embora as diferenças de desempenho tenham sido sutis, GREs parecem mesmo ser mais adequadas do que PWMs na presença de valores mais altos de dependência de bases, e PWMs nos demais casos. Por fim, uma ferramenta de predição computacional de SLFTs foi criada baseada tanto em GREs quanto em PWMs. Transcription factors (FT) are proteins that bind to specific and well-conserved sequences of nucleotides in the DNA, called transcription factor binding sites (TFBS), contained in regions of gene regulation known as cis-regulatory modules (CRM). By recognizing TFBA, the transcription factor binds to that site and positively or negatively influence the gene transcription. There are experimental procedures for the identification of TFBS in a genome such as footprinting, ChIP-chip or ChIP-Seq. However, the implementation of these techniques involves high costs and time. Alternatively, one may utilize the TFBS sequences already known for a particular transcription factor and applying computational supervised learning techniques to create a computational model for that site and then perform the computational prediction in the genome. However, most existing software tools for this purpose considers independence between nucleotide positions in the site - such as those based on PWMs (position weight matrix) - which is not necessarily true. This project aimed to evaluate the use of stochastic regular grammars (SRG) as an alternative technique to PWMs in this problem, since SRGs are able to characterize dependencies between consecutive positions in the sites. Although differences in performance have been subtle, SRGs appear to be more suitable than PWMs in the presence of higher base dependency values, and PWMs in other cases. Finally, a computational TFBS prediction tool was created based on both SRGs and PWMs. 2017-10-27 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/95/95131/tde-02012018-144349/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Bioinformática USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP