Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas
=== When multiple data sources are available for data mining, an a priori data integration process is usually required. This process may be costly and not lead to good results, since important information is likely to be discarded. In this master's thesis, we propose constrained clustering and...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Universidade Federal de Minas Gerais
2011
|
Online Access: | http://hdl.handle.net/1843/SLSS-8GQGQC |
id |
ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-8GQGQC |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-SLSS-8GQGQC2019-01-21T18:02:17Z Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas Elisa Boari de Lima Wagner Meira Junior Raquel Cardoso de Melo Raquel Cardoso de Melo Altigran Soares da Silva When multiple data sources are available for data mining, an a priori data integration process is usually required. This process may be costly and not lead to good results, since important information is likely to be discarded. In this master's thesis, we propose constrained clustering and spectral clustering as strategies for integrating data sources without losing any information. The process basically consists of adding the complementary data sources as constraints that the clustering algorithms must satisfy, or using them to increase the similarity between pairs of objects for the spectral clustering algorithms. As a concrete application of our approach, we focus on the problem of enzyme function prediction, which is a hard task usually performed by intensive experimental work. We use constrained and spectral clustering as means of integrating information from diverse sources, and analyze how this additional information impacts clustering quality in an enzyme clustering application scenario. Our results show that the use of such additional information generally improves the clustering quality when compared to the results using only the main database. Keywords: constrained clustering, data integration, enzyme clustering, spectral clustering. Quando múltiplas fontes de dados estão disponíveis para serem mineradas, geralmente é necessário um processo a priori de integração de dados. Tal processo pode ser custoso e não levar a bons resultados, visto que informação importante possivelmente será descartada. Nesta dissertação se propõe o uso de agrupamento com restrições e agrupamento espectral como estratégias para integrar fontes de dados sem perda de qualquer informação. O processo consiste basicamente em adicionar as fontes complementares na forma de restrições que os algoritmos de agrupamento devem satisfazer, ou utilizá-las para aumentar a similaridade entre pares de objetos para os algoritmos de agrupamento espectral. Como uma aplicação concreta desta abordagem, esta dissertação foca no problema de previsão de funções enzimáticas, que é uma tarefa complexa, geralmente realizada por meio de trabalho experimental intensivo. Agrupamentos com restrições e espectral são empregados como meios de integração de informação proveniente de diversas fontes, e a forma como tal informação impacta a qualidade dos resultados em um cenário de agrupamento de enzimas é analisada. Os resultados mostram que o uso de conhecimento de domínio melhora, em geral, a qualidade dos agrupamentos em comparação com os resultados obtidos utilizando apenas a base de dados principal. 2011-02-28 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1843/SLSS-8GQGQC por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010004P6 - CIÊNCIA DA COMPUTAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
description |
=== When multiple data sources are available for data mining, an a priori data integration process is usually required. This process may be costly and not lead to good results, since important information is likely to be discarded. In this master's thesis, we propose constrained clustering and spectral clustering as strategies for integrating data sources without losing any information. The process basically consists of adding the complementary data sources as constraints that the clustering algorithms must satisfy, or using them to increase the similarity between pairs of objects for the spectral clustering algorithms.
As a concrete application of our approach, we focus on the problem of enzyme function prediction, which is a hard task usually performed by intensive experimental work. We use constrained and spectral clustering as means of integrating information from diverse sources, and analyze how this additional information impacts clustering quality in an enzyme clustering application scenario. Our results show that the use of such additional information generally improves the clustering quality when compared to the results using only the main database.
Keywords: constrained clustering, data integration, enzyme clustering, spectral clustering. === Quando múltiplas fontes de dados estão disponíveis para serem mineradas, geralmente é necessário um processo a priori de integração de dados. Tal processo pode ser custoso e não levar a bons resultados, visto que informação importante possivelmente será descartada. Nesta dissertação se propõe o uso de agrupamento com restrições e agrupamento espectral como estratégias para integrar fontes de dados sem perda de qualquer informação. O processo consiste basicamente em adicionar as fontes complementares na forma de restrições que os algoritmos de agrupamento devem satisfazer, ou utilizá-las para aumentar a similaridade entre pares de objetos para os algoritmos de agrupamento espectral.
Como uma aplicação concreta desta abordagem, esta dissertação foca no problema de previsão de funções enzimáticas, que é uma tarefa complexa, geralmente realizada por meio de trabalho experimental intensivo. Agrupamentos com restrições e espectral são empregados como meios de integração de informação proveniente de diversas fontes, e a forma como tal informação impacta a qualidade dos resultados em um cenário de agrupamento de enzimas é analisada. Os resultados mostram que o uso de conhecimento de domínio melhora, em geral, a qualidade dos agrupamentos em comparação com os resultados obtidos utilizando apenas a base de dados principal. |
author2 |
Wagner Meira Junior |
author_facet |
Wagner Meira Junior Elisa Boari de Lima |
author |
Elisa Boari de Lima |
spellingShingle |
Elisa Boari de Lima Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas |
author_sort |
Elisa Boari de Lima |
title |
Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas |
title_short |
Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas |
title_full |
Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas |
title_fullStr |
Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas |
title_full_unstemmed |
Utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas |
title_sort |
utilizando agrupamento com restrições e agrupamento espectral para integração de dados de enzimas |
publisher |
Universidade Federal de Minas Gerais |
publishDate |
2011 |
url |
http://hdl.handle.net/1843/SLSS-8GQGQC |
work_keys_str_mv |
AT elisaboaridelima utilizandoagrupamentocomrestricoeseagrupamentoespectralparaintegracaodedadosdeenzimas |
_version_ |
1718846128982589440 |