Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais
Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) === Made available in DSpace on 2017...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
Universidade Estadual de Ponta Grossa
2017
|
Subjects: | |
Online Access: | http://tede2.uepg.br/jspui/handle/prefix/2408 |
id |
ndltd-IBICT-oai-tede2.uepg.br-prefix-2408 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Espectrometria de massa Proteínas ribossomais Pesos moleculares estimados Aprendizado de máquina Mass spectrometry Ribosomal proteins Estimated molecular weights Machine learning |
spellingShingle |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Espectrometria de massa Proteínas ribossomais Pesos moleculares estimados Aprendizado de máquina Mass spectrometry Ribosomal proteins Estimated molecular weights Machine learning Tomachewski, Douglas Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais |
description |
Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) === Made available in DSpace on 2017-11-30T10:57:51Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5)
Previous issue date: 2017-09-04 === A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para
compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando
identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica
cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de
espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são
capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos
referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os
picos pode-se designar um padrão, como uma impressão digital, para reconhecer um
microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra
forma de identificar um espectro de massa, é através dos picos que são esperados que se
apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no
espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas
proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento
celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente
conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos
estimados formaram uma base de dados presumida, contendo todas as informações obtidas do
repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de
espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter
um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais.
Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software
chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de
94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível
taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares
ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo
uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em
nível de gênero. === Identification of microorganisms in health and agriculture areas is essential to
understand the composition and development of the environment. New techniques are seeking
to identify these microorganisms with more accuracy, speed and at a lower cost. Nowadays, a
technique that is increasingly studied and used is the identification of microorganisms through
mass spectra, generated by mass spectrometry. The mass spectra are able to generate a
recognition profile from a microorganism, using the referring peaks to the most abundant
molecular masses recorded in the spectrum. By analyzing the peaks, it is possible to designate
a pattern, such as a fingerprint, to recognize a microorganism; this technique is known as the
Peptide Mass Fingerprint (PMF). Another way to identify a mass spectrum is through the peaks
that are expected to appear in the spectrum, which model this work used. To predict the
expected peaks in the spectrum, the estimated molecular weights of ribosomal proteins were
calculated. These proteins are responsible for the cellular functioning itself, so-called
housekeeping. Besides they being abundant in the prokaryotic content, they are highly
conserved, not altering their physiology to different environments or cell stage. The estimated
weights formed a presumed database, containing all the information obtained from the NCBI’s
repository. This presumed database was generalized at the specie level and later submitted to a
machine learning algorithm. With this, it was possible to obtain a microorganism’s
classificatory model based on ribosomal proteins values. Using the generated model by the
machine learning, a software called Ribopeaks was developed to classify the microorganisms
at the specie level with an accuracy of 94.83%, considering the related species. It was also
observed the results at genus level, which obtained 98.69% of assertiveness. Values of
biological ribosomal molecular masses from the literature were also tested in the acquihired
model, obtaining a total assertiveness of 84.48% at the specie level, and 90.51% at the genus
level. |
author2 |
Campos Júnior, Arion de |
author_facet |
Campos Júnior, Arion de Tomachewski, Douglas |
author |
Tomachewski, Douglas |
author_sort |
Tomachewski, Douglas |
title |
Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais |
title_short |
Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais |
title_full |
Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais |
title_fullStr |
Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais |
title_full_unstemmed |
Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais |
title_sort |
utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais |
publisher |
Universidade Estadual de Ponta Grossa |
publishDate |
2017 |
url |
http://tede2.uepg.br/jspui/handle/prefix/2408 |
work_keys_str_mv |
AT tomachewskidouglas utilizacaodeaprendizadodemaquinaparaclassificacaodebacteriasatravesdeproteinasribossomais |
_version_ |
1719007661101416448 |
spelling |
ndltd-IBICT-oai-tede2.uepg.br-prefix-24082019-03-27T19:21:20Z Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais Tomachewski, Douglas Campos Júnior, Arion de Etto, Rafael Mazer Guimarães, Alaine Margarete Cruz, Leonardo Magalhães Rocha, José Carlos Steffens, Maria Berenice Reynaud CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Espectrometria de massa Proteínas ribossomais Pesos moleculares estimados Aprendizado de máquina Mass spectrometry Ribosomal proteins Estimated molecular weights Machine learning Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) Made available in DSpace on 2017-11-30T10:57:51Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) Previous issue date: 2017-09-04 A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os picos pode-se designar um padrão, como uma impressão digital, para reconhecer um microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra forma de identificar um espectro de massa, é através dos picos que são esperados que se apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos estimados formaram uma base de dados presumida, contendo todas as informações obtidas do repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais. Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de 94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em nível de gênero. Identification of microorganisms in health and agriculture areas is essential to understand the composition and development of the environment. New techniques are seeking to identify these microorganisms with more accuracy, speed and at a lower cost. Nowadays, a technique that is increasingly studied and used is the identification of microorganisms through mass spectra, generated by mass spectrometry. The mass spectra are able to generate a recognition profile from a microorganism, using the referring peaks to the most abundant molecular masses recorded in the spectrum. By analyzing the peaks, it is possible to designate a pattern, such as a fingerprint, to recognize a microorganism; this technique is known as the Peptide Mass Fingerprint (PMF). Another way to identify a mass spectrum is through the peaks that are expected to appear in the spectrum, which model this work used. To predict the expected peaks in the spectrum, the estimated molecular weights of ribosomal proteins were calculated. These proteins are responsible for the cellular functioning itself, so-called housekeeping. Besides they being abundant in the prokaryotic content, they are highly conserved, not altering their physiology to different environments or cell stage. The estimated weights formed a presumed database, containing all the information obtained from the NCBI’s repository. This presumed database was generalized at the specie level and later submitted to a machine learning algorithm. With this, it was possible to obtain a microorganism’s classificatory model based on ribosomal proteins values. Using the generated model by the machine learning, a software called Ribopeaks was developed to classify the microorganisms at the specie level with an accuracy of 94.83%, considering the related species. It was also observed the results at genus level, which obtained 98.69% of assertiveness. Values of biological ribosomal molecular masses from the literature were also tested in the acquihired model, obtaining a total assertiveness of 84.48% at the specie level, and 90.51% at the genus level. 2017-11-30T10:57:51Z 2017-11-30 2017-11-30T10:57:51Z 2017-09-04 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis TOMACHEWSKI, Douglas. Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais. 2017, 72f. Dissertação (Mestrado em Computação Aplicada), Universidade Estadual de Ponta Grossa, Ponta Grossa, 2017. http://tede2.uepg.br/jspui/handle/prefix/2408 por Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess Universidade Estadual de Ponta Grossa Programa de Pós Graduação Computação Aplicada UEPG Brasil Departamento de Informática reponame:Biblioteca Digital de Teses e Dissertações da UEPG instname:Universidade Estadual de Ponta Grossa instacron:UEPG |