Um método para seleção de atributos em dados genômicos
Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-05-05T18:05:07Z No. of bitstreams: 1 fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) === Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-06-07T15:41:26...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
Universidade Federal de Juiz de Fora
2016
|
Subjects: | |
Online Access: | https://repositorio.ufjf.br/jspui/handle/ufjf/1397 |
id |
ndltd-IBICT-oai-hermes.cpd.ufjf.br-ufjf-1397 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA Estudos de Associação em Escala Genômica Máquina de Vetores Suporte Florestas Aleatórias Algoritmos Genéticos Polimorfismos de Base Única Genome-wide association studies Support Vector Machine Random Forests Genetic Algorithms Single Nucleotide Polymorphisms |
spellingShingle |
CNPQ::CIENCIAS EXATAS E DA TERRA Estudos de Associação em Escala Genômica Máquina de Vetores Suporte Florestas Aleatórias Algoritmos Genéticos Polimorfismos de Base Única Genome-wide association studies Support Vector Machine Random Forests Genetic Algorithms Single Nucleotide Polymorphisms Oliveira, Fabrízzio Condé de Um método para seleção de atributos em dados genômicos |
description |
Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-05-05T18:05:07Z
No. of bitstreams: 1
fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) === Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-06-07T15:41:26Z (GMT) No. of bitstreams: 1
fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) === Made available in DSpace on 2016-06-07T15:41:26Z (GMT). No. of bitstreams: 1
fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5)
Previous issue date: 2015-11-26 === CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior === Estudos de associação em escala genômica buscam encontrar marcadores moleculares
do tipo SNP que estão associados direta ou indiretamente a um fenótipo em questão
tais como, uma ou mais características do indivíduo ou, até mesmo, uma doença. O
SNP pode ser a própria mutação causal ou pode estar correlacionado com a mesma por
serem herdados juntos. Para identi car a região causadora ou promotora do fenótipo,
a qual não é conhecida a priori, milhares ou milhões de SNPs são genotipados em
amostras compostas de centenas ou milhares de indivíduos. Com isso, surge o desa o
de selecionar os SNPs mais informativos no conjunto de dados genotípico, onde o número
de atributos é, geralmente, muito superior ao número de indivíduos, com a possibilidade
de que existam atributos altamente correlacionados e, ainda, podendo haver interações
entre pares, trios ou combinações de SNPs de quaisquer ordens. Os métodos mais usados
em estudos de associação em escala genômica utilizam o valor-p de cada SNP em testes
estatísticos de hipóteses, baseados em regressão para fenótipos contínuos e baseados nos
testes qui-quadrado ou similares em classi cação para fenótipos discretos, como ltro
para selecionar os SNPs mais signi cativos. Entretanto, essa classe de métodos captura
somente SNPs com efeitos aditivos, pois a relação adotada é linear. Na tentativa de
superar as limitações de procedimentos já estabelecidos, este trabalho propõe um novo
método de seleção de SNPs baseado em técnicas de Aprendizado de Máquina e Inteligência
Computacional denominado SNP Markers Selector (SMS). O modelo é construído a partir
de uma abordagem que divide o problema de seleção de SNPs em três fases distintas: a
primeira relacionada à análise de relevância dos marcadores, a segunda responsável pela
de nição do conjunto de marcadores relevantes que serão considerados por meio de uma
estratégia de corte com base em um limite de relevância dos marcadores e, nalmente,
uma fase para o re namento do processo de corte, geralmente para diminuir marcadores
falsos-positivos. No SMS, essas três etapas, foram implementadas utilizando-se Florestas
Aleatórias, Máquina de Vetores Suporte e Algoritmos Genéticos respectivamente. O
SMS objetiva a criação de um uxo de trabalho que maximize o potencial de seleção
do modelo através de etapas complementares. Assim, espera-se aumentar o potencial
do SMS capturar efeitos aditivos e/ou não-aditivos com interação moderada entre pares
e trios de SNPs, ou até mesmo, interações de ordens superiores com efeitos que sejam
minimamente detectáveis. O SMS pode ser aplicado tanto em problemas de regressão
(fenótipo contínuo) quanto de classi cação (fenótipo discreto). Experimentos numéricos
foram realizados para avaliação do potencial da estratégia apresentada, com o método
sendo aplicado em sete conjuntos de dados simulados e em uma base de dados real, onde
a capacidade de produção de leite predita de vacas leiteiras foi medida como fenótipo
contínuo. Além disso, o método proposto foi comparado com os métodos baseados no
valor-p e com o Lasso Bayesiano apresentando, de forma geral, melhores resultados do
ponto de vista de SNPs verdadeiros-positivos nos dados simulados com efeitos aditivos
juntamente com interações entre pares e trios de SNPs. No conjunto de dados reais,
baseado em 56.947 SNPs e um único fenótipo relativo à produção de leite, o método
identi cou 245 QTLs associados à produção e à composição do leite e 90 genes candidatos
associados à mastite, à produção e à composição do leite, sendo esses QTLs e genes
identi cados por estudos anteriores utilizando outros métodos de seleção. Assim, o método
demonstrou ser competitivo frente aos métodos utilizados para comparação em cenários
complexos, com dados simulados ou reais, o que indica seu potencial para estudos de
associação em escala genômica em humanos, animais e vegetais. === Genome-wide association studies have as main objective to discovery SNP type molecular
markers associated directly or indirectly to a speci c phenotype related to one or more
characteristics of an individual or even a disease. The SNP could be the causative
mutation itself or correlated with the causative mutation due to common inheritance.
Aiming to identify the causal or promoter region of the phenotype, which is unknown a
priori, thousands or millions of SNPs are genotyped in samples composed of hundreds
or thousands of individuals. Therefore, emerges the necessity to confront a challenge of
selecting the most informative SNPs in genotype data set where the number of attributes
are, usually, much higher than the number of individuals. Besides, the possibility of
highly correlated attributes should be considered, as well as interactions between pairs,
trios or combinations of high order SNPs. The most usual methods applied on genomewide
association studies adopt the p-value of each SNP as a lter to select the SNPs most
signi cant. For continuous phenotypes the statistical regression-based hypothesis test is
used and the Chi-Square test or similar for classi cation of discrete phenotypes. However,
this class of methods capture only SNPs with additive e ects, due to the linear relationship
considered. In an attempt to overcome the limitations of established procedures, this
work proposes a new SNPs selection method, named SNP Markers Selector (SMS), based
on Machine Learning and Computational Intelligence strategies. The model is built
considering an approach which divides the SNPs selection problem in three distinct phases:
the rst related to the evaluation of the markers relevance, a second responsible for the
de nition of the set of the relevant markers that will be considered by means of a cut
strategy based on a threshold of markers relevance and, nally, a phase for the re nement
of the cut process, usually to diminish false-positive markers. In the SMS, these three
steps were implemented using Random Forests, Support Vector Machine and Genetic
Algorithms, respectively. The SMS intends to create a work ow that maximizes the SNPs
selection potential of the model due to the adoption of steps considered complementary.
In this way, there is an increasing expectation on the performance of the SMS to capture
additive e ects, moderate non-additive interaction between pairs and trios of SNPs,
or even, higher order interactions with minimally detectable e ects. The SMS can be
applied both in regression problems (continuous phenotype) as in classi cation problems
(discrete phenotype). Numerical experiments were performed to evaluate the potential
of the strategy, with the method being applied in seven sets of simulated data and in a
real data set, where milk production capacity predicated of dairy cows was measured as
continuous phenotype. Besides, the comparison of the proposed method with methods
based on p-value and Lasso Bayesian technique indicate, in general, competitive results
from the point of view of true-positive SNPs using simulated data set with additive e ects
in conjunction with interactions of pairs and trios of SNPs. In the real data, based on
56,947 SNPs and a single phenotype of milk production, the method identi ed 245 QTLs
associated with milk production and composition and 90 candidate genes associated with
mastitis, milk production and composition, standing out that these QTLs and genes
were identi ed by previous studies using other selection methods. Thus, the experiments
showed the potential of the method in relation to other strategies when complex scenarios
with simulated or real data are adopted, indicating that the work ow developed to guide
the construction of the method should be considered for genome-wide asociation studies
in humans, animals and plants. |
author2 |
Borges, Carlos Cristiano Hasenclever |
author_facet |
Borges, Carlos Cristiano Hasenclever Oliveira, Fabrízzio Condé de |
author |
Oliveira, Fabrízzio Condé de |
author_sort |
Oliveira, Fabrízzio Condé de |
title |
Um método para seleção de atributos em dados genômicos |
title_short |
Um método para seleção de atributos em dados genômicos |
title_full |
Um método para seleção de atributos em dados genômicos |
title_fullStr |
Um método para seleção de atributos em dados genômicos |
title_full_unstemmed |
Um método para seleção de atributos em dados genômicos |
title_sort |
um método para seleção de atributos em dados genômicos |
publisher |
Universidade Federal de Juiz de Fora |
publishDate |
2016 |
url |
https://repositorio.ufjf.br/jspui/handle/ufjf/1397 |
work_keys_str_mv |
AT oliveirafabrizziocondede ummetodoparaselecaodeatributosemdadosgenomicos |
_version_ |
1718885806634958848 |
spelling |
ndltd-IBICT-oai-hermes.cpd.ufjf.br-ufjf-13972019-01-21T21:35:38Z Um método para seleção de atributos em dados genômicos Oliveira, Fabrízzio Condé de Borges, Carlos Cristiano Hasenclever Arbex, Wagner Antonio Goliatt, Priscila Vanessa Zabala Capriles Fonseca Neto, Raul Silva, Fabyano Fonseca e CNPQ::CIENCIAS EXATAS E DA TERRA Estudos de Associação em Escala Genômica Máquina de Vetores Suporte Florestas Aleatórias Algoritmos Genéticos Polimorfismos de Base Única Genome-wide association studies Support Vector Machine Random Forests Genetic Algorithms Single Nucleotide Polymorphisms Submitted by Renata Lopes (renatasil82@gmail.com) on 2016-05-05T18:05:07Z No. of bitstreams: 1 fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2016-06-07T15:41:26Z (GMT) No. of bitstreams: 1 fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) Made available in DSpace on 2016-06-07T15:41:26Z (GMT). No. of bitstreams: 1 fabrizziocondedeoliveira.pdf: 6115188 bytes, checksum: 9810536208119e2012e4ee9015470c3e (MD5) Previous issue date: 2015-11-26 CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior Estudos de associação em escala genômica buscam encontrar marcadores moleculares do tipo SNP que estão associados direta ou indiretamente a um fenótipo em questão tais como, uma ou mais características do indivíduo ou, até mesmo, uma doença. O SNP pode ser a própria mutação causal ou pode estar correlacionado com a mesma por serem herdados juntos. Para identi car a região causadora ou promotora do fenótipo, a qual não é conhecida a priori, milhares ou milhões de SNPs são genotipados em amostras compostas de centenas ou milhares de indivíduos. Com isso, surge o desa o de selecionar os SNPs mais informativos no conjunto de dados genotípico, onde o número de atributos é, geralmente, muito superior ao número de indivíduos, com a possibilidade de que existam atributos altamente correlacionados e, ainda, podendo haver interações entre pares, trios ou combinações de SNPs de quaisquer ordens. Os métodos mais usados em estudos de associação em escala genômica utilizam o valor-p de cada SNP em testes estatísticos de hipóteses, baseados em regressão para fenótipos contínuos e baseados nos testes qui-quadrado ou similares em classi cação para fenótipos discretos, como ltro para selecionar os SNPs mais signi cativos. Entretanto, essa classe de métodos captura somente SNPs com efeitos aditivos, pois a relação adotada é linear. Na tentativa de superar as limitações de procedimentos já estabelecidos, este trabalho propõe um novo método de seleção de SNPs baseado em técnicas de Aprendizado de Máquina e Inteligência Computacional denominado SNP Markers Selector (SMS). O modelo é construído a partir de uma abordagem que divide o problema de seleção de SNPs em três fases distintas: a primeira relacionada à análise de relevância dos marcadores, a segunda responsável pela de nição do conjunto de marcadores relevantes que serão considerados por meio de uma estratégia de corte com base em um limite de relevância dos marcadores e, nalmente, uma fase para o re namento do processo de corte, geralmente para diminuir marcadores falsos-positivos. No SMS, essas três etapas, foram implementadas utilizando-se Florestas Aleatórias, Máquina de Vetores Suporte e Algoritmos Genéticos respectivamente. O SMS objetiva a criação de um uxo de trabalho que maximize o potencial de seleção do modelo através de etapas complementares. Assim, espera-se aumentar o potencial do SMS capturar efeitos aditivos e/ou não-aditivos com interação moderada entre pares e trios de SNPs, ou até mesmo, interações de ordens superiores com efeitos que sejam minimamente detectáveis. O SMS pode ser aplicado tanto em problemas de regressão (fenótipo contínuo) quanto de classi cação (fenótipo discreto). Experimentos numéricos foram realizados para avaliação do potencial da estratégia apresentada, com o método sendo aplicado em sete conjuntos de dados simulados e em uma base de dados real, onde a capacidade de produção de leite predita de vacas leiteiras foi medida como fenótipo contínuo. Além disso, o método proposto foi comparado com os métodos baseados no valor-p e com o Lasso Bayesiano apresentando, de forma geral, melhores resultados do ponto de vista de SNPs verdadeiros-positivos nos dados simulados com efeitos aditivos juntamente com interações entre pares e trios de SNPs. No conjunto de dados reais, baseado em 56.947 SNPs e um único fenótipo relativo à produção de leite, o método identi cou 245 QTLs associados à produção e à composição do leite e 90 genes candidatos associados à mastite, à produção e à composição do leite, sendo esses QTLs e genes identi cados por estudos anteriores utilizando outros métodos de seleção. Assim, o método demonstrou ser competitivo frente aos métodos utilizados para comparação em cenários complexos, com dados simulados ou reais, o que indica seu potencial para estudos de associação em escala genômica em humanos, animais e vegetais. Genome-wide association studies have as main objective to discovery SNP type molecular markers associated directly or indirectly to a speci c phenotype related to one or more characteristics of an individual or even a disease. The SNP could be the causative mutation itself or correlated with the causative mutation due to common inheritance. Aiming to identify the causal or promoter region of the phenotype, which is unknown a priori, thousands or millions of SNPs are genotyped in samples composed of hundreds or thousands of individuals. Therefore, emerges the necessity to confront a challenge of selecting the most informative SNPs in genotype data set where the number of attributes are, usually, much higher than the number of individuals. Besides, the possibility of highly correlated attributes should be considered, as well as interactions between pairs, trios or combinations of high order SNPs. The most usual methods applied on genomewide association studies adopt the p-value of each SNP as a lter to select the SNPs most signi cant. For continuous phenotypes the statistical regression-based hypothesis test is used and the Chi-Square test or similar for classi cation of discrete phenotypes. However, this class of methods capture only SNPs with additive e ects, due to the linear relationship considered. In an attempt to overcome the limitations of established procedures, this work proposes a new SNPs selection method, named SNP Markers Selector (SMS), based on Machine Learning and Computational Intelligence strategies. The model is built considering an approach which divides the SNPs selection problem in three distinct phases: the rst related to the evaluation of the markers relevance, a second responsible for the de nition of the set of the relevant markers that will be considered by means of a cut strategy based on a threshold of markers relevance and, nally, a phase for the re nement of the cut process, usually to diminish false-positive markers. In the SMS, these three steps were implemented using Random Forests, Support Vector Machine and Genetic Algorithms, respectively. The SMS intends to create a work ow that maximizes the SNPs selection potential of the model due to the adoption of steps considered complementary. In this way, there is an increasing expectation on the performance of the SMS to capture additive e ects, moderate non-additive interaction between pairs and trios of SNPs, or even, higher order interactions with minimally detectable e ects. The SMS can be applied both in regression problems (continuous phenotype) as in classi cation problems (discrete phenotype). Numerical experiments were performed to evaluate the potential of the strategy, with the method being applied in seven sets of simulated data and in a real data set, where milk production capacity predicated of dairy cows was measured as continuous phenotype. Besides, the comparison of the proposed method with methods based on p-value and Lasso Bayesian technique indicate, in general, competitive results from the point of view of true-positive SNPs using simulated data set with additive e ects in conjunction with interactions of pairs and trios of SNPs. In the real data, based on 56,947 SNPs and a single phenotype of milk production, the method identi ed 245 QTLs associated with milk production and composition and 90 candidate genes associated with mastitis, milk production and composition, standing out that these QTLs and genes were identi ed by previous studies using other selection methods. Thus, the experiments showed the potential of the method in relation to other strategies when complex scenarios with simulated or real data are adopted, indicating that the work ow developed to guide the construction of the method should be considered for genome-wide asociation studies in humans, animals and plants. 2016-06-07T15:41:26Z 2016-05-05 2016-06-07T15:41:26Z 2015-11-26 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis https://repositorio.ufjf.br/jspui/handle/ufjf/1397 por info:eu-repo/semantics/openAccess Universidade Federal de Juiz de Fora Programa de Pós-graduação em Modelagem Computacional UFJF Brasil ICE – Instituto de Ciências Exatas reponame:Repositório Institucional da UFJF instname:Universidade Federal de Juiz de Fora instacron:UFJF |