Métodos Bayesianos aplicados em taxonomia molecular

Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na esco...

Full description

Bibliographic Details
Main Author: Edwin Rafael Villanueva Talavera
Other Authors: Carlos Dias Maciel
Language:Portuguese
Published: Universidade de São Paulo 2007
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/18/18152/tde-03102007-105125/
id ndltd-IBICT-oai-teses.usp.br-tde-03102007-105125
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic Agrupamento
Agrupamento hierárquico
Modelos gráficos probabilísticos
Modelos probabilísticos
Taxonomia molecular
Clustering
Hierarchical clustering
Molecular taxonomy
Probabilistic graphical models
Probabilistic models
spellingShingle Agrupamento
Agrupamento hierárquico
Modelos gráficos probabilísticos
Modelos probabilísticos
Taxonomia molecular
Clustering
Hierarchical clustering
Molecular taxonomy
Probabilistic graphical models
Probabilistic models
Edwin Rafael Villanueva Talavera
Métodos Bayesianos aplicados em taxonomia molecular
description Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o \'N IND.2\' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos. === In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen (\'N IND.2\') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups.
author2 Carlos Dias Maciel
author_facet Carlos Dias Maciel
Edwin Rafael Villanueva Talavera
author Edwin Rafael Villanueva Talavera
author_sort Edwin Rafael Villanueva Talavera
title Métodos Bayesianos aplicados em taxonomia molecular
title_short Métodos Bayesianos aplicados em taxonomia molecular
title_full Métodos Bayesianos aplicados em taxonomia molecular
title_fullStr Métodos Bayesianos aplicados em taxonomia molecular
title_full_unstemmed Métodos Bayesianos aplicados em taxonomia molecular
title_sort métodos bayesianos aplicados em taxonomia molecular
publisher Universidade de São Paulo
publishDate 2007
url http://www.teses.usp.br/teses/disponiveis/18/18152/tde-03102007-105125/
work_keys_str_mv AT edwinrafaelvillanuevatalavera metodosbayesianosaplicadosemtaxonomiamolecular
AT edwinrafaelvillanuevatalavera bayesianmethodsappliedinmoleculartaxonomy
_version_ 1718957674798776320
spelling ndltd-IBICT-oai-teses.usp.br-tde-03102007-1051252019-01-22T02:58:10Z Métodos Bayesianos aplicados em taxonomia molecular Bayesian methods applied in molecular taxonomy Edwin Rafael Villanueva Talavera Carlos Dias Maciel Estevam Rafael Hruschka Junior Vilma Alves de Oliveira Agrupamento Agrupamento hierárquico Modelos gráficos probabilísticos Modelos probabilísticos Taxonomia molecular Clustering Hierarchical clustering Molecular taxonomy Probabilistic graphical models Probabilistic models Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o \'N IND.2\' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos. In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen (\'N IND.2\') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups. 2007-08-31 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/18/18152/tde-03102007-105125/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Engenharia Elétrica USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP