Filtros para a busca e extração de padrões aproximados em cadeias biológicas

Esta dissertação de mestrado aborda formulações computacionais e algoritmos para a busca e extração de padrões em cadeias biológicas. Em particular, o presente texto concentra-se nos dois problemas a seguir, considerando-os sob as distâncias de Hamming e Levenshtein: a) como determinar os locais...

Full description

Bibliographic Details
Main Author: Domingos Soares Neto
Other Authors: Jose Augusto Ramos Soares
Language:Portuguese
Published: Universidade de São Paulo 2008
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/45/45134/tde-19102009-002745/
id ndltd-IBICT-oai-teses.usp.br-tde-19102009-002745
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic algoritmos bit-paralelos
algoritmos de filtragem
árvores dos sufixos
busca aproximada de padrões
extração de padrões
motifs
q-gramas
vetor dos sufixos
approximate string matching
bit-parallel algorithms
filter algorithms
motifs
patterns extraction
q-grams
suffix array
suffix tree
spellingShingle algoritmos bit-paralelos
algoritmos de filtragem
árvores dos sufixos
busca aproximada de padrões
extração de padrões
motifs
q-gramas
vetor dos sufixos
approximate string matching
bit-parallel algorithms
filter algorithms
motifs
patterns extraction
q-grams
suffix array
suffix tree
Domingos Soares Neto
Filtros para a busca e extração de padrões aproximados em cadeias biológicas
description Esta dissertação de mestrado aborda formulações computacionais e algoritmos para a busca e extração de padrões em cadeias biológicas. Em particular, o presente texto concentra-se nos dois problemas a seguir, considerando-os sob as distâncias de Hamming e Levenshtein: a) como determinar os locais nos quais um dado padrão ocorre de modo aproximado em uma cadeia fornecida; b) como extrair padrões que ocorram de modo aproximado em um número significativo de cadeias de um conjunto fornecido. O primeiro problema, para o qual já existem diversos algoritmos polinomiais, tem recebido muita atenção desde a década de 60, e ganhou novos ares com o advento da biologia computacional, nos idos dos anos 80, e com a popularização da Internet e seus mecanismos de busca: ambos os fenômenos trouxeram novos obstáculos a serem superados, em razão do grande volume de dados e das bastante justas restrições de tempo inerentes a essas aplicações. O segundo problema, de surgimento um pouco mais recente, é intrinsicamente desafiador, em razão de sua complexidade computacional, do tamanho das entradas tratadas nas aplicações mais comuns e de sua dificuldade de aproximação. Também é de chamar a atenção o seu grande potencial de aplicação. Neste trabalho são apresentadas formulações adequadas dos problemas abordados, assim como algoritmos e estruturas de dados essenciais ao seu estudo. Em especial, estudamos a extremamente versátil árvore dos sufixos, assim como uma de suas generalizações e sua estrutura irmã: o vetor dos sufixos. Grande parte do texto é dedicada aos filtros baseados em q-gramas para a busca aproximada de padrões e algumas de suas mais recentes variações. Estão cobertos os algoritmos bit-paralelos de Myers e Baeza-Yates-Gonnet para a busca de padrões; os algoritmos de Sagot para a extração de padrões; os algoritmos de filtragem de Ukkonen, Jokinen-Ukkonen, Burkhardt-Kärkkäinen, entre outros. === This thesis deals with computational formulations and algorithms for the extraction and search of patterns from biological strings. In particular, the present text focuses on the following problems, both considered under Hamming and Levenshtein distances: 1. How to find the positions where a given pattern approximatelly occurs in a given string; 2. How to extract patterns which approximatelly occurs in a certain number of strings from a given set. The first problem, for which there are many polinomial time algorithms, has been receiving a lot of attention since the 60s and entered a new era of discoveries with the advent of computational biology, in the 80s, and the widespread of the Internet and its search engines: both events brought new challenges to be faced by virtue of the large volume of data usually held by such applications and its time constraints. The second problem, much younger, is very challenging due to its computational complexity, approximation hardness and the size of the input data usually held by the most common applications. This problem is also very interesting due to its potential of application. In this work we show computational formulations, algorithms and data structures for those problems. We cover the bit-parallel algorithms of Myers, Baeza-Yates-Gonnet and the Sagots algorithms for patterns extraction. We also cover here the oustanding versatile suffix tree, its generalised version, and a similar data structure: the suffix array. A significant part of the present work focuses on q-gram based filters designed to solve the approximate pattern search problem. More precisely, we cover the filter algorithms of Ukkonen, Jokinen-Ukkonen and Burkhardt-Kärkkäinen, among others.
author2 Jose Augusto Ramos Soares
author_facet Jose Augusto Ramos Soares
Domingos Soares Neto
author Domingos Soares Neto
author_sort Domingos Soares Neto
title Filtros para a busca e extração de padrões aproximados em cadeias biológicas
title_short Filtros para a busca e extração de padrões aproximados em cadeias biológicas
title_full Filtros para a busca e extração de padrões aproximados em cadeias biológicas
title_fullStr Filtros para a busca e extração de padrões aproximados em cadeias biológicas
title_full_unstemmed Filtros para a busca e extração de padrões aproximados em cadeias biológicas
title_sort filtros para a busca e extração de padrões aproximados em cadeias biológicas
publisher Universidade de São Paulo
publishDate 2008
url http://www.teses.usp.br/teses/disponiveis/45/45134/tde-19102009-002745/
work_keys_str_mv AT domingossoaresneto filtrosparaabuscaeextracaodepadroesaproximadosemcadeiasbiologicas
AT domingossoaresneto filteralgorithmsforapproximatepatternsmatchingandextractionfrombiologicalstrings
_version_ 1718912970187079680
spelling ndltd-IBICT-oai-teses.usp.br-tde-19102009-0027452019-01-21T23:50:33Z Filtros para a busca e extração de padrões aproximados em cadeias biológicas Filter Algorithms for Approximate Patterns Matching and Extraction from Biological Strings Domingos Soares Neto Jose Augusto Ramos Soares Fabio Henrique Viduani Martinez Jose Coelho de Pina Junior algoritmos bit-paralelos algoritmos de filtragem árvores dos sufixos busca aproximada de padrões extração de padrões motifs q-gramas vetor dos sufixos approximate string matching bit-parallel algorithms filter algorithms motifs patterns extraction q-grams suffix array suffix tree Esta dissertação de mestrado aborda formulações computacionais e algoritmos para a busca e extração de padrões em cadeias biológicas. Em particular, o presente texto concentra-se nos dois problemas a seguir, considerando-os sob as distâncias de Hamming e Levenshtein: a) como determinar os locais nos quais um dado padrão ocorre de modo aproximado em uma cadeia fornecida; b) como extrair padrões que ocorram de modo aproximado em um número significativo de cadeias de um conjunto fornecido. O primeiro problema, para o qual já existem diversos algoritmos polinomiais, tem recebido muita atenção desde a década de 60, e ganhou novos ares com o advento da biologia computacional, nos idos dos anos 80, e com a popularização da Internet e seus mecanismos de busca: ambos os fenômenos trouxeram novos obstáculos a serem superados, em razão do grande volume de dados e das bastante justas restrições de tempo inerentes a essas aplicações. O segundo problema, de surgimento um pouco mais recente, é intrinsicamente desafiador, em razão de sua complexidade computacional, do tamanho das entradas tratadas nas aplicações mais comuns e de sua dificuldade de aproximação. Também é de chamar a atenção o seu grande potencial de aplicação. Neste trabalho são apresentadas formulações adequadas dos problemas abordados, assim como algoritmos e estruturas de dados essenciais ao seu estudo. Em especial, estudamos a extremamente versátil árvore dos sufixos, assim como uma de suas generalizações e sua estrutura irmã: o vetor dos sufixos. Grande parte do texto é dedicada aos filtros baseados em q-gramas para a busca aproximada de padrões e algumas de suas mais recentes variações. Estão cobertos os algoritmos bit-paralelos de Myers e Baeza-Yates-Gonnet para a busca de padrões; os algoritmos de Sagot para a extração de padrões; os algoritmos de filtragem de Ukkonen, Jokinen-Ukkonen, Burkhardt-Kärkkäinen, entre outros. This thesis deals with computational formulations and algorithms for the extraction and search of patterns from biological strings. In particular, the present text focuses on the following problems, both considered under Hamming and Levenshtein distances: 1. How to find the positions where a given pattern approximatelly occurs in a given string; 2. How to extract patterns which approximatelly occurs in a certain number of strings from a given set. The first problem, for which there are many polinomial time algorithms, has been receiving a lot of attention since the 60s and entered a new era of discoveries with the advent of computational biology, in the 80s, and the widespread of the Internet and its search engines: both events brought new challenges to be faced by virtue of the large volume of data usually held by such applications and its time constraints. The second problem, much younger, is very challenging due to its computational complexity, approximation hardness and the size of the input data usually held by the most common applications. This problem is also very interesting due to its potential of application. In this work we show computational formulations, algorithms and data structures for those problems. We cover the bit-parallel algorithms of Myers, Baeza-Yates-Gonnet and the Sagots algorithms for patterns extraction. We also cover here the oustanding versatile suffix tree, its generalised version, and a similar data structure: the suffix array. A significant part of the present work focuses on q-gram based filters designed to solve the approximate pattern search problem. More precisely, we cover the filter algorithms of Ukkonen, Jokinen-Ukkonen and Burkhardt-Kärkkäinen, among others. 2008-09-10 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/45/45134/tde-19102009-002745/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Ciência da Computação USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP