Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization

Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T20:59:33Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5) === Made available in...

Full description

Bibliographic Details
Main Author: ARAÚJO, Flávia Roberta Barbosa de
Other Authors: http://lattes.cnpq.br/8994178236264483
Language:Portuguese
Published: Universidade Federal de Pernambuco 2018
Subjects:
Online Access:https://repositorio.ufpe.br/handle/123456789/24890
id ndltd-IBICT-oai-repositorio.ufpe.br-123456789-24890
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic Ciência da computação.
Interação epistática
spellingShingle Ciência da computação.
Interação epistática
ARAÚJO, Flávia Roberta Barbosa de
Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization
description Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T20:59:33Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5) === Made available in DSpace on 2018-06-25T20:59:33Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5) Previous issue date: 2017-02-21 === FACEPE === Embora duas pessoas compartilhem mais de 99% do DNA, as variações são extremamente relevantes para determinar as variações fenotípicas. Dentre essas variações, os polimorfismos de nucleotídeo único(SNP) são alterações pontuais mais conhecidas por influenciar no aumento no risco de doenças. Os SNPs podem atuar individualmente ou através de interações com outros SNPs (interaçõe sepistáticas). A inferência das interações epistáticas é um problema que vem sendo amplamente estudado, sendo utilizados dados genômicos de estudos de associação ampla do genoma (GWAS) com pacientes casos e controles. Diversas abordagens computacionais foram propostas, utilizando diferentes estratégias para lidar com os desafios de inferir as interações mais relevantes. O primeiro desafio encontrado neste estudo, esta relacionado à grande quantidade de dados (cerca de 500 a 900 mil SNPs). O segundo desafio esta associado ao número de possíveis interações entre SNPs, o que leva a um problema combinatorial. E o terceiro desafio, relaciona-se com o baixo poder estatístico das interações, sendo mais custoso identificá-las. A combinação desses desafios, tornam este um problema difícil de ser tratado. Nesta tese, são utilizadas diferentes metodologias, selecionadas para verificar suas capacidades em lidar com o problema da inferência da interações epistáticas. Dentre estas, são avaliadas técnicas de seleção de características e abordagens computacionais na detecção das interações entre SNPs, assim como algoritmos de aprendizagem de máquina baseados em Relevance Learning Vector Quantization (RLVQ). Nos experimentos realizados, os algoritmos baseados em RLVQ apresentaram resultados satisfatórios ao identificar as interações relevantes entre SNPs em dados com até 5 interações, utilizando requisitos computacionais relativamente baixos quando comparados a outras abordagens descritas na literatura. Um estudo mais extenso foi realizado, com o objetivo de identificar um ajuste ideal dos parâmetros e verificar as capacidades e limitações de cada algoritmo. Com os resultados obtidos através desse ajuste de parâmetros, foi possível levantar hipóteses referente a influência da quantidade de interações entre SNPs e da dimensionalidade dos dados em função dos parâmetros utilizados nos algoritmos. Considerando essas análises, foi possível propor uma nova metodologia denominada iGRLVQ-SNPi, baseada em algoritmos de RLVQ, para lidar de forma mais eficiente com o problema da inferência das interações entre os SNPs. Como iGRLVQ-SNPi, foi possível avaliar interações de ordem n, sem que para isso, fosse necessário informar o número de interações que se deseja avaliar. Nos experimentos realizados, o iGRLVQ-SNPi obteve uma excelente acurácia nos diferentes conjuntos de dados testados, e sendo comparativamente melhor ou tão eficiente quanto outras abordagens de inferência epistáticas avaliadas, utilizando um menor custo computacional. === Although two people share more than 99% of DNA, variations are extremely relevant for determining phenotypic variations. Among these variations, single nucleotide polymorphisms (SNPs) are punctual changes known to influence the increased risk of disease. SNPs can act individually or through interactions with other SNPs (epistatic interactions). The inference of epistatic interactions is a problem that has been extensively studied, using genomic data from genome wide associationstudies(GWAS) with cases and controls patients. Several computational approaches were proposed, using different strategies to deal with the challenges of inferring the most relevant interactions. The first challenge found in this study is related to the large amount of data (about 500 to 900 thousand SNPs). The second challenge is the number of possible interactions between SNPs, which leads to a combinatorial problem. And the third challenge is related to the low statistical power of the interactions, being more difficult to identify them. The combination of these challenges makes this a hard problem to address. In this thesis, different methodologies were used, they were selected to verify their abilities in dealing with the problem of inference of the epistatic interactions. Among these, we evaluate techniques of feature selection and computational approaches in the detection of interactions between SNPs, as well as machine learning algorithms based on Relevance Learning Vector Quantization(RLVQ). In the experiments performed, the RLVQ-based algorithms presented satisfactory results by identifying the relevant interactions between SNPs in data with up to 5 interactions, using relatively low computational requirements when compared to other approaches described in the literature. Amore extensive study was carried out with the objective of identify in ganoptimal adjustment of the parameters and verifying the capacities and limitationsofeachalgorithm. With the results obtained through this adjustment of parameters, it was possible to raise hypotheses regarding the influence of the amount of interactions between SNPs and the dimensionality of the data as a function of the parameters used in the algorithms. Considering these analyzes, it was possible to propose a new methodology called iGRLVQ-SNPi, based on RLVQ algorithms, to deal more efficiently with the problem of inference of the interactions between the SNPs. With iGRLVQ-SNPi, it was possible to evaluate n-order interactions, without it being necessary to inform the number of interactions to be evaluated. In the experiments performed, iGRLVQ-SNPi obtained an excellent accuracy in the different data sets tested, and was comparatively better or as efficient as other evaluated epistatic inference approaches, using a lower computational cost.
author2 http://lattes.cnpq.br/8994178236264483
author_facet http://lattes.cnpq.br/8994178236264483
ARAÚJO, Flávia Roberta Barbosa de
author ARAÚJO, Flávia Roberta Barbosa de
author_sort ARAÚJO, Flávia Roberta Barbosa de
title Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization
title_short Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization
title_full Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization
title_fullStr Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization
title_full_unstemmed Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization
title_sort inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em relevance learning vector quantization
publisher Universidade Federal de Pernambuco
publishDate 2018
url https://repositorio.ufpe.br/handle/123456789/24890
work_keys_str_mv AT araujoflaviarobertabarbosade inferenciadepolimorfismosdenucleotideounicoutilizandoalgoritmosbaseadosemrelevancelearningvectorquantization
_version_ 1718865274787069952
spelling ndltd-IBICT-oai-repositorio.ufpe.br-123456789-248902019-01-21T19:25:32Z Inferência de polimorfismos de nucleotídeo único utilizando algoritmos baseados em Relevance Learning Vector Quantization ARAÚJO, Flávia Roberta Barbosa de http://lattes.cnpq.br/8994178236264483 GUIMARÃES, Katia Silva Guimarães Ciência da computação. Interação epistática Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-06-25T20:59:33Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5) Made available in DSpace on 2018-06-25T20:59:33Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Flávia Roberta Barbosa de Araújo.pdf: 2622290 bytes, checksum: c1614ba289657ed54f8b6d463f91bfca (MD5) Previous issue date: 2017-02-21 FACEPE Embora duas pessoas compartilhem mais de 99% do DNA, as variações são extremamente relevantes para determinar as variações fenotípicas. Dentre essas variações, os polimorfismos de nucleotídeo único(SNP) são alterações pontuais mais conhecidas por influenciar no aumento no risco de doenças. Os SNPs podem atuar individualmente ou através de interações com outros SNPs (interaçõe sepistáticas). A inferência das interações epistáticas é um problema que vem sendo amplamente estudado, sendo utilizados dados genômicos de estudos de associação ampla do genoma (GWAS) com pacientes casos e controles. Diversas abordagens computacionais foram propostas, utilizando diferentes estratégias para lidar com os desafios de inferir as interações mais relevantes. O primeiro desafio encontrado neste estudo, esta relacionado à grande quantidade de dados (cerca de 500 a 900 mil SNPs). O segundo desafio esta associado ao número de possíveis interações entre SNPs, o que leva a um problema combinatorial. E o terceiro desafio, relaciona-se com o baixo poder estatístico das interações, sendo mais custoso identificá-las. A combinação desses desafios, tornam este um problema difícil de ser tratado. Nesta tese, são utilizadas diferentes metodologias, selecionadas para verificar suas capacidades em lidar com o problema da inferência da interações epistáticas. Dentre estas, são avaliadas técnicas de seleção de características e abordagens computacionais na detecção das interações entre SNPs, assim como algoritmos de aprendizagem de máquina baseados em Relevance Learning Vector Quantization (RLVQ). Nos experimentos realizados, os algoritmos baseados em RLVQ apresentaram resultados satisfatórios ao identificar as interações relevantes entre SNPs em dados com até 5 interações, utilizando requisitos computacionais relativamente baixos quando comparados a outras abordagens descritas na literatura. Um estudo mais extenso foi realizado, com o objetivo de identificar um ajuste ideal dos parâmetros e verificar as capacidades e limitações de cada algoritmo. Com os resultados obtidos através desse ajuste de parâmetros, foi possível levantar hipóteses referente a influência da quantidade de interações entre SNPs e da dimensionalidade dos dados em função dos parâmetros utilizados nos algoritmos. Considerando essas análises, foi possível propor uma nova metodologia denominada iGRLVQ-SNPi, baseada em algoritmos de RLVQ, para lidar de forma mais eficiente com o problema da inferência das interações entre os SNPs. Como iGRLVQ-SNPi, foi possível avaliar interações de ordem n, sem que para isso, fosse necessário informar o número de interações que se deseja avaliar. Nos experimentos realizados, o iGRLVQ-SNPi obteve uma excelente acurácia nos diferentes conjuntos de dados testados, e sendo comparativamente melhor ou tão eficiente quanto outras abordagens de inferência epistáticas avaliadas, utilizando um menor custo computacional. Although two people share more than 99% of DNA, variations are extremely relevant for determining phenotypic variations. Among these variations, single nucleotide polymorphisms (SNPs) are punctual changes known to influence the increased risk of disease. SNPs can act individually or through interactions with other SNPs (epistatic interactions). The inference of epistatic interactions is a problem that has been extensively studied, using genomic data from genome wide associationstudies(GWAS) with cases and controls patients. Several computational approaches were proposed, using different strategies to deal with the challenges of inferring the most relevant interactions. The first challenge found in this study is related to the large amount of data (about 500 to 900 thousand SNPs). The second challenge is the number of possible interactions between SNPs, which leads to a combinatorial problem. And the third challenge is related to the low statistical power of the interactions, being more difficult to identify them. The combination of these challenges makes this a hard problem to address. In this thesis, different methodologies were used, they were selected to verify their abilities in dealing with the problem of inference of the epistatic interactions. Among these, we evaluate techniques of feature selection and computational approaches in the detection of interactions between SNPs, as well as machine learning algorithms based on Relevance Learning Vector Quantization(RLVQ). In the experiments performed, the RLVQ-based algorithms presented satisfactory results by identifying the relevant interactions between SNPs in data with up to 5 interactions, using relatively low computational requirements when compared to other approaches described in the literature. Amore extensive study was carried out with the objective of identify in ganoptimal adjustment of the parameters and verifying the capacities and limitationsofeachalgorithm. With the results obtained through this adjustment of parameters, it was possible to raise hypotheses regarding the influence of the amount of interactions between SNPs and the dimensionality of the data as a function of the parameters used in the algorithms. Considering these analyzes, it was possible to propose a new methodology called iGRLVQ-SNPi, based on RLVQ algorithms, to deal more efficiently with the problem of inference of the interactions between the SNPs. With iGRLVQ-SNPi, it was possible to evaluate n-order interactions, without it being necessary to inform the number of interactions to be evaluated. In the experiments performed, iGRLVQ-SNPi obtained an excellent accuracy in the different data sets tested, and was comparatively better or as efficient as other evaluated epistatic inference approaches, using a lower computational cost. 2018-06-25T20:59:33Z 2018-06-25T20:59:33Z 2017-02-21 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis https://repositorio.ufpe.br/handle/123456789/24890 por Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/embargoedAccess Universidade Federal de Pernambuco Programa de Pos Graduacao em Ciencia da Computacao UFPE Brasil reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco instacron:UFPE