Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas

Fatores de transcrição (FT) são proteínas que se ligam em sequências específicas e bem conservadas de nucleotídeos no DNA, denominadas sítios de ligação dos fatores de transcrição (SLFT), localizadas em regiões de regulação gênica conhecidas como módulos cis-reguladores (CRM). Ao reconhecer o SL...

Full description

Bibliographic Details
Main Author:	Antonio Ferrão Neto
Other Authors:	Ariane Machado Lima
Language:	Portuguese
Published:	Universidade de São Paulo 2017
Subjects:	CRM Enhancer Fator de transcrição Gramáticas regulares Módulos cis-regulatórios Motivos PWM Sítios de ligação de fatores de transcrição cis-regulatory modules Motifs Regular grammars Transcription factor Transcription factor binding sites
Online Access:	http://www.teses.usp.br/teses/disponiveis/95/95131/tde-02012018-144349/

id	ndltd-IBICT-oai-teses.usp.br-tde-02012018-144349
record_format	oai_dc
collection	NDLTD
language	Portuguese
sources	NDLTD
topic	CRM Enhancer Fator de transcrição Gramáticas regulares Módulos cis-regulatórios Motivos PWM Sítios de ligação de fatores de transcrição cis-regulatory modules CRM Enhancer Motifs PWM Regular grammars Transcription factor Transcription factor binding sites
spellingShingle	CRM Enhancer Fator de transcrição Gramáticas regulares Módulos cis-regulatórios Motivos PWM Sítios de ligação de fatores de transcrição cis-regulatory modules CRM Enhancer Motifs PWM Regular grammars Transcription factor Transcription factor binding sites Antonio Ferrão Neto Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
description	Fatores de transcrição (FT) são proteínas que se ligam em sequências específicas e bem conservadas de nucleotídeos no DNA, denominadas sítios de ligação dos fatores de transcrição (SLFT), localizadas em regiões de regulação gênica conhecidas como módulos cis-reguladores (CRM). Ao reconhecer o SLFT, o fator de transcrição se liga naquele sítio e influencia a transcrição gênica positiva ou negativamente. Existem técnicas experimentais para a identificação dos locais dos SLFTs em um genoma, como footprinting, ChIP-chip ou ChIP-seq. Entretanto, a execução de tais técnicas implica em custos e tempo elevados. Alternativamente, pode-se utilizar as sequências de SLFTs já conhecidas para um determinado fator de transcrição e aplicar técnicas de aprendizado computacional supervisionado para criar um modelo computacional para tal sítio e então realizar a predição computacional no genoma. Entretanto, a maioria das ferramentas computacionais existentes para esse fim considera independência entre as posições entre os nucleotídeos de um sítio - como as baseadas em PWMs (position weight matrix) - o que não é necessariamente verdade. Este projeto teve como objetivo avaliar a utilização de gramáticas regulares estocásticas (GRE) como técnica alternativa às PWMs neste problema, uma vez que GREs são capazes de caracterizar dependências entre posições consecutivas dos sítios. Embora as diferenças de desempenho tenham sido sutis, GREs parecem mesmo ser mais adequadas do que PWMs na presença de valores mais altos de dependência de bases, e PWMs nos demais casos. Por fim, uma ferramenta de predição computacional de SLFTs foi criada baseada tanto em GREs quanto em PWMs. === Transcription factors (FT) are proteins that bind to specific and well-conserved sequences of nucleotides in the DNA, called transcription factor binding sites (TFBS), contained in regions of gene regulation known as cis-regulatory modules (CRM). By recognizing TFBA, the transcription factor binds to that site and positively or negatively influence the gene transcription. There are experimental procedures for the identification of TFBS in a genome such as footprinting, ChIP-chip or ChIP-Seq. However, the implementation of these techniques involves high costs and time. Alternatively, one may utilize the TFBS sequences already known for a particular transcription factor and applying computational supervised learning techniques to create a computational model for that site and then perform the computational prediction in the genome. However, most existing software tools for this purpose considers independence between nucleotide positions in the site - such as those based on PWMs (position weight matrix) - which is not necessarily true. This project aimed to evaluate the use of stochastic regular grammars (SRG) as an alternative technique to PWMs in this problem, since SRGs are able to characterize dependencies between consecutive positions in the sites. Although differences in performance have been subtle, SRGs appear to be more suitable than PWMs in the presence of higher base dependency values, and PWMs in other cases. Finally, a computational TFBS prediction tool was created based on both SRGs and PWMs.
author2	Ariane Machado Lima
author_facet	Ariane Machado Lima Antonio Ferrão Neto
author	Antonio Ferrão Neto
author_sort	Antonio Ferrão Neto
title	Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_short	Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_full	Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_fullStr	Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_full_unstemmed	Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
title_sort	predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas
publisher	Universidade de São Paulo
publishDate	2017
url	http://www.teses.usp.br/teses/disponiveis/95/95131/tde-02012018-144349/
work_keys_str_mv	AT antonioferraoneto predicaocomputacionaldesitiosdeligacaodefatoresdetranscricaobaseadaemgramaticasregularesestocasticas AT antonioferraoneto computationalpredictionoftranscriptionfactorbindingsitesbasedonstochasticregulargrammars
_version_	1718888355633037312
spelling	ndltd-IBICT-oai-teses.usp.br-tde-02012018-1443492019-01-21T21:50:20Z Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas Computational prediction of transcription factor binding sites based on stochastic regular grammars Antonio Ferrão Neto Ariane Machado Lima Luiz Paulo Moura Andrioli Luciano Antonio Digiampietri Tatiana Teixeira Torres CRM Enhancer Fator de transcrição Gramáticas regulares Módulos cis-regulatórios Motivos PWM Sítios de ligação de fatores de transcrição cis-regulatory modules CRM Enhancer Motifs PWM Regular grammars Transcription factor Transcription factor binding sites Fatores de transcrição (FT) são proteínas que se ligam em sequências específicas e bem conservadas de nucleotídeos no DNA, denominadas sítios de ligação dos fatores de transcrição (SLFT), localizadas em regiões de regulação gênica conhecidas como módulos cis-reguladores (CRM). Ao reconhecer o SLFT, o fator de transcrição se liga naquele sítio e influencia a transcrição gênica positiva ou negativamente. Existem técnicas experimentais para a identificação dos locais dos SLFTs em um genoma, como footprinting, ChIP-chip ou ChIP-seq. Entretanto, a execução de tais técnicas implica em custos e tempo elevados. Alternativamente, pode-se utilizar as sequências de SLFTs já conhecidas para um determinado fator de transcrição e aplicar técnicas de aprendizado computacional supervisionado para criar um modelo computacional para tal sítio e então realizar a predição computacional no genoma. Entretanto, a maioria das ferramentas computacionais existentes para esse fim considera independência entre as posições entre os nucleotídeos de um sítio - como as baseadas em PWMs (position weight matrix) - o que não é necessariamente verdade. Este projeto teve como objetivo avaliar a utilização de gramáticas regulares estocásticas (GRE) como técnica alternativa às PWMs neste problema, uma vez que GREs são capazes de caracterizar dependências entre posições consecutivas dos sítios. Embora as diferenças de desempenho tenham sido sutis, GREs parecem mesmo ser mais adequadas do que PWMs na presença de valores mais altos de dependência de bases, e PWMs nos demais casos. Por fim, uma ferramenta de predição computacional de SLFTs foi criada baseada tanto em GREs quanto em PWMs. Transcription factors (FT) are proteins that bind to specific and well-conserved sequences of nucleotides in the DNA, called transcription factor binding sites (TFBS), contained in regions of gene regulation known as cis-regulatory modules (CRM). By recognizing TFBA, the transcription factor binds to that site and positively or negatively influence the gene transcription. There are experimental procedures for the identification of TFBS in a genome such as footprinting, ChIP-chip or ChIP-Seq. However, the implementation of these techniques involves high costs and time. Alternatively, one may utilize the TFBS sequences already known for a particular transcription factor and applying computational supervised learning techniques to create a computational model for that site and then perform the computational prediction in the genome. However, most existing software tools for this purpose considers independence between nucleotide positions in the site - such as those based on PWMs (position weight matrix) - which is not necessarily true. This project aimed to evaluate the use of stochastic regular grammars (SRG) as an alternative technique to PWMs in this problem, since SRGs are able to characterize dependencies between consecutive positions in the sites. Although differences in performance have been subtle, SRGs appear to be more suitable than PWMs in the presence of higher base dependency values, and PWMs in other cases. Finally, a computational TFBS prediction tool was created based on both SRGs and PWMs. 2017-10-27 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/95/95131/tde-02012018-144349/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Bioinformática USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP

Predição computacional de sítios de ligação de fatores de transcrição baseada em gramáticas regulares estocásticas

Similar Items