Investigação de técnicas de classificação hierárquica para problemas de bioinformática
Em Aprendizado de Máquina e Mineração de Dados, muitos dos trabalhos de classificação reportados na literatura envolvem classificação plana (flat classification), em que cada exemplo é associado a uma dentre um conjunto finito (e normalmente pequeno) de classes, todas em um mesmo nível. Entretanto,...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | pt |
Published: |
Biblioteca Digitais de Teses e Dissertações da USP
2008
|
Subjects: | |
Online Access: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-09052008-144238/ |
id |
ndltd-usp.br-oai-teses.usp.br-tde-09052008-144238 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-usp.br-oai-teses.usp.br-tde-09052008-1442382019-05-09T18:44:27Z Investigação de técnicas de classificação hierárquica para problemas de bioinformática Investigation of hierarchial classification techniques for bioinformatics problems Costa, Eduardo de Paula Aprendizado de máquina Bioinformática Bioinformatics Classificação hierárquica Data mining Hierarchical classification Machine learning Mineração de dados Em Aprendizado de Máquina e Mineração de Dados, muitos dos trabalhos de classificação reportados na literatura envolvem classificação plana (flat classification), em que cada exemplo é associado a uma dentre um conjunto finito (e normalmente pequeno) de classes, todas em um mesmo nível. Entretanto, existem problemas de classificação mais complexos em que as classes a serem preditas podem ser dispostas em uma estrutura hierárquica. Para esses problemas, a utilização de técnicas e conceitos de classificação hierárquica tem se mostrado útil. Uma das linhas de pesquisa com grande potencial para a utilização de tais técnicas é a Bioinformática. Dessa forma, esta dissertação apresenta um estudo envolvendo técnicas de classificação hierárquica aplicadas à predição de classes funcionais de proteínas. No total foram investigados doze algoritmos hierárquicos diferentes, sendo onze deles representantes da abordagem Top-Down, que foi o enfoque da investigação realizada. O outro algoritmo investigado foi o HC4.5, um algoritmo baseado na abordagem Big- Bang. Parte dos algoritmos estudados foram desenvolvidos com base em uma variação da abordagem Top-Down, denominada de Top-Down Ensemble, que foi proposta neste estudo. Alguns do algoritmos baseados nessa nova abordagem apresentaram resultados promissores, superando os resultados dos demais algoritmos. Para avaliação dos resultados, foi utilizada uma medida específica para problemas hierárquicos, denominada taxa de acerto dependente da profundidade. Além dessa, outras três medidas de avaliação foram utilizadas, de modo a comparar os resultados reportados por diferentes medidas In Machine Learning and Data Mining, most of the research in classification reported in the literature involve flat classification, where each example is assigned to one class out of a finite (and usually small) set of flat classes. Nevertheless, there are more complex classification problems in which the classes to be predicted can be disposed in a hierarchy. In this context, the use of hierarchical classification techniques and concepts have been shown to be useful. One research with great potential is the application of hierarchical classification techniques to Bioinformatics problems. Therefore, this MSc thesis presents a study involving hierarchical classification techniques applied to the prediction of functional classes of proteins. Twelve different algorithms were investigated - eleven of them based on the Top-Down approach, which was the focus of this study. The other investigated algorithm was HC4.5, an algorithm based on the Big-Bang approach. Part of these algorithms are based on a variation of the Top-Down approach, named Top-Down Ensembles, proposed in this study. Some of the algorithms based on this new approach presented promising results, which were better than the results presented by other algorithms. A specific evaluation measure for hierarchical classification, named depth-dependent accuracy, was used to evaluate the classification models. Besides, other three evaluation measures were used in order to compare the results reported by them Biblioteca Digitais de Teses e Dissertações da USP Carvalho, André Carlos Ponce de Leon Ferreira de 2008-03-25 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/55/55134/tde-09052008-144238/ pt Liberar o conteúdo para acesso público. |
collection |
NDLTD |
language |
pt |
format |
Others
|
sources |
NDLTD |
topic |
Aprendizado de máquina Bioinformática Bioinformatics Classificação hierárquica Data mining Hierarchical classification Machine learning Mineração de dados |
spellingShingle |
Aprendizado de máquina Bioinformática Bioinformatics Classificação hierárquica Data mining Hierarchical classification Machine learning Mineração de dados Costa, Eduardo de Paula Investigação de técnicas de classificação hierárquica para problemas de bioinformática |
description |
Em Aprendizado de Máquina e Mineração de Dados, muitos dos trabalhos de classificação reportados na literatura envolvem classificação plana (flat classification), em que cada exemplo é associado a uma dentre um conjunto finito (e normalmente pequeno) de classes, todas em um mesmo nível. Entretanto, existem problemas de classificação mais complexos em que as classes a serem preditas podem ser dispostas em uma estrutura hierárquica. Para esses problemas, a utilização de técnicas e conceitos de classificação hierárquica tem se mostrado útil. Uma das linhas de pesquisa com grande potencial para a utilização de tais técnicas é a Bioinformática. Dessa forma, esta dissertação apresenta um estudo envolvendo técnicas de classificação hierárquica aplicadas à predição de classes funcionais de proteínas. No total foram investigados doze algoritmos hierárquicos diferentes, sendo onze deles representantes da abordagem Top-Down, que foi o enfoque da investigação realizada. O outro algoritmo investigado foi o HC4.5, um algoritmo baseado na abordagem Big- Bang. Parte dos algoritmos estudados foram desenvolvidos com base em uma variação da abordagem Top-Down, denominada de Top-Down Ensemble, que foi proposta neste estudo. Alguns do algoritmos baseados nessa nova abordagem apresentaram resultados promissores, superando os resultados dos demais algoritmos. Para avaliação dos resultados, foi utilizada uma medida específica para problemas hierárquicos, denominada taxa de acerto dependente da profundidade. Além dessa, outras três medidas de avaliação foram utilizadas, de modo a comparar os resultados reportados por diferentes medidas === In Machine Learning and Data Mining, most of the research in classification reported in the literature involve flat classification, where each example is assigned to one class out of a finite (and usually small) set of flat classes. Nevertheless, there are more complex classification problems in which the classes to be predicted can be disposed in a hierarchy. In this context, the use of hierarchical classification techniques and concepts have been shown to be useful. One research with great potential is the application of hierarchical classification techniques to Bioinformatics problems. Therefore, this MSc thesis presents a study involving hierarchical classification techniques applied to the prediction of functional classes of proteins. Twelve different algorithms were investigated - eleven of them based on the Top-Down approach, which was the focus of this study. The other investigated algorithm was HC4.5, an algorithm based on the Big-Bang approach. Part of these algorithms are based on a variation of the Top-Down approach, named Top-Down Ensembles, proposed in this study. Some of the algorithms based on this new approach presented promising results, which were better than the results presented by other algorithms. A specific evaluation measure for hierarchical classification, named depth-dependent accuracy, was used to evaluate the classification models. Besides, other three evaluation measures were used in order to compare the results reported by them |
author2 |
Carvalho, André Carlos Ponce de Leon Ferreira de |
author_facet |
Carvalho, André Carlos Ponce de Leon Ferreira de Costa, Eduardo de Paula |
author |
Costa, Eduardo de Paula |
author_sort |
Costa, Eduardo de Paula |
title |
Investigação de técnicas de classificação hierárquica para problemas de bioinformática |
title_short |
Investigação de técnicas de classificação hierárquica para problemas de bioinformática |
title_full |
Investigação de técnicas de classificação hierárquica para problemas de bioinformática |
title_fullStr |
Investigação de técnicas de classificação hierárquica para problemas de bioinformática |
title_full_unstemmed |
Investigação de técnicas de classificação hierárquica para problemas de bioinformática |
title_sort |
investigação de técnicas de classificação hierárquica para problemas de bioinformática |
publisher |
Biblioteca Digitais de Teses e Dissertações da USP |
publishDate |
2008 |
url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-09052008-144238/ |
work_keys_str_mv |
AT costaeduardodepaula investigacaodetecnicasdeclassificacaohierarquicaparaproblemasdebioinformatica AT costaeduardodepaula investigationofhierarchialclassificationtechniquesforbioinformaticsproblems |
_version_ |
1719056767090950144 |