Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais

Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) === Made available in DSpace on 2017...

Full description

Bibliographic Details
Main Author: Tomachewski, Douglas
Other Authors: Campos Júnior, Arion de
Language:Portuguese
Published: Universidade Estadual de Ponta Grossa 2017
Subjects:
Online Access:http://tede2.uepg.br/jspui/handle/prefix/2408
id ndltd-IBICT-oai-tede2.uepg.br-prefix-2408
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Espectrometria de massa
Proteínas ribossomais
Pesos moleculares estimados
Aprendizado de máquina
Mass spectrometry
Ribosomal proteins
Estimated molecular weights
Machine learning
spellingShingle CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Espectrometria de massa
Proteínas ribossomais
Pesos moleculares estimados
Aprendizado de máquina
Mass spectrometry
Ribosomal proteins
Estimated molecular weights
Machine learning
Tomachewski, Douglas
Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
description Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) === Made available in DSpace on 2017-11-30T10:57:51Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) Previous issue date: 2017-09-04 === A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os picos pode-se designar um padrão, como uma impressão digital, para reconhecer um microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra forma de identificar um espectro de massa, é através dos picos que são esperados que se apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais. Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de 94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em nível de gênero. === Identification of microorganisms in health and agriculture areas is essential to understand the composition and development of the environment. New techniques are seeking to identify these microorganisms with more accuracy, speed and at a lower cost. Nowadays, a technique that is increasingly studied and used is the identification of microorganisms through mass spectra, generated by mass spectrometry. The mass spectra are able to generate a recognition profile from a microorganism, using the referring peaks to the most abundant molecular masses recorded in the spectrum. By analyzing the peaks, it is possible to designate a pattern, such as a fingerprint, to recognize a microorganism; this technique is known as the Peptide Mass Fingerprint (PMF). Another way to identify a mass spectrum is through the peaks that are expected to appear in the spectrum, which model this work used. To predict the expected peaks in the spectrum, the estimated molecular weights of ribosomal proteins were calculated. These proteins are responsible for the cellular functioning itself, so-called housekeeping. Besides they being abundant in the prokaryotic content, they are highly conserved, not altering their physiology to different environments or cell stage. The estimated weights formed a presumed database, containing all the information obtained from the NCBI’s repository. This presumed database was generalized at the specie level and later submitted to a machine learning algorithm. With this, it was possible to obtain a microorganism’s classificatory model based on ribosomal proteins values. Using the generated model by the machine learning, a software called Ribopeaks was developed to classify the microorganisms at the specie level with an accuracy of 94.83%, considering the related species. It was also observed the results at genus level, which obtained 98.69% of assertiveness. Values of biological ribosomal molecular masses from the literature were also tested in the acquihired model, obtaining a total assertiveness of 84.48% at the specie level, and 90.51% at the genus level.
author2 Campos Júnior, Arion de
author_facet Campos Júnior, Arion de
Tomachewski, Douglas
author Tomachewski, Douglas
author_sort Tomachewski, Douglas
title Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_short Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_full Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_fullStr Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_full_unstemmed Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
title_sort utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
publisher Universidade Estadual de Ponta Grossa
publishDate 2017
url http://tede2.uepg.br/jspui/handle/prefix/2408
work_keys_str_mv AT tomachewskidouglas utilizacaodeaprendizadodemaquinaparaclassificacaodebacteriasatravesdeproteinasribossomais
_version_ 1719007661101416448
spelling ndltd-IBICT-oai-tede2.uepg.br-prefix-24082019-03-27T19:21:20Z Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais Tomachewski, Douglas Campos Júnior, Arion de Etto, Rafael Mazer Guimarães, Alaine Margarete Cruz, Leonardo Magalhães Rocha, José Carlos Steffens, Maria Berenice Reynaud CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Espectrometria de massa Proteínas ribossomais Pesos moleculares estimados Aprendizado de máquina Mass spectrometry Ribosomal proteins Estimated molecular weights Machine learning Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) Made available in DSpace on 2017-11-30T10:57:51Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) Previous issue date: 2017-09-04 A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os picos pode-se designar um padrão, como uma impressão digital, para reconhecer um microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra forma de identificar um espectro de massa, é através dos picos que são esperados que se apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais. Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de 94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em nível de gênero. Identification of microorganisms in health and agriculture areas is essential to understand the composition and development of the environment. New techniques are seeking to identify these microorganisms with more accuracy, speed and at a lower cost. Nowadays, a technique that is increasingly studied and used is the identification of microorganisms through mass spectra, generated by mass spectrometry. The mass spectra are able to generate a recognition profile from a microorganism, using the referring peaks to the most abundant molecular masses recorded in the spectrum. By analyzing the peaks, it is possible to designate a pattern, such as a fingerprint, to recognize a microorganism; this technique is known as the Peptide Mass Fingerprint (PMF). Another way to identify a mass spectrum is through the peaks that are expected to appear in the spectrum, which model this work used. To predict the expected peaks in the spectrum, the estimated molecular weights of ribosomal proteins were calculated. These proteins are responsible for the cellular functioning itself, so-called housekeeping. Besides they being abundant in the prokaryotic content, they are highly conserved, not altering their physiology to different environments or cell stage. The estimated weights formed a presumed database, containing all the information obtained from the NCBI’s repository. This presumed database was generalized at the specie level and later submitted to a machine learning algorithm. With this, it was possible to obtain a microorganism’s classificatory model based on ribosomal proteins values. Using the generated model by the machine learning, a software called Ribopeaks was developed to classify the microorganisms at the specie level with an accuracy of 94.83%, considering the related species. It was also observed the results at genus level, which obtained 98.69% of assertiveness. Values of biological ribosomal molecular masses from the literature were also tested in the acquihired model, obtaining a total assertiveness of 84.48% at the specie level, and 90.51% at the genus level. 2017-11-30T10:57:51Z 2017-11-30 2017-11-30T10:57:51Z 2017-09-04 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis TOMACHEWSKI, Douglas. Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais. 2017, 72f. Dissertação (Mestrado em Computação Aplicada), Universidade Estadual de Ponta Grossa, Ponta Grossa, 2017. http://tede2.uepg.br/jspui/handle/prefix/2408 por Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess Universidade Estadual de Ponta Grossa Programa de Pós Graduação Computação Aplicada UEPG Brasil Departamento de Informática reponame:Biblioteca Digital de Teses e Dissertações da UEPG instname:Universidade Estadual de Ponta Grossa instacron:UEPG