Peptide Retention Time Prediction using Artificial Neural Networks

This thesis describes the development and evaluation of an artificial neural network, trained to predict the chromatographic retention times of peptides, based on their amino acid sequence. The purpose of accurately predicting retention times is to increase the number of protein identifications in s...

Full description

Bibliographic Details
Main Author: Väljamets, Sara
Format: Others
Language:English
Published: KTH, Matematisk statistik 2016
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-190995
id ndltd-UPSALLA1-oai-DiVA.org-kth-190995
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1909952016-08-23T05:07:47ZPeptide Retention Time Prediction using Artificial Neural NetworksengPeptid retentionstids prediktering med artificiella neuronnätVäljamets, SaraKTH, Matematisk statistik2016This thesis describes the development and evaluation of an artificial neural network, trained to predict the chromatographic retention times of peptides, based on their amino acid sequence. The purpose of accurately predicting retention times is to increase the number of protein identifications in shotgun proteomics and to improve targeted mass spectrometry experiment. The model presented in this thesis is a branched convolutional neural network (CNN) consisting of two convolutional layers, followed by three fully connected layers, all with leaky rectifier as the activation function. Each amino acid sequence is represented by a 20-by-20 matrix X, with each row corresponding to a certain amino acid and the columns representing the position of the amino acid in the peptide. This model achieves a RMSE corresponding to 3.8% of the total running time of the liquid chromatography and a 95 % confidence interval proportional to 14% of the running time, when trained on 20 000 unique peptides from a yeast sample. The CNN predicts retention times slightly more accurately than the software ELUDE when trained on a larger dataset, yet ELUDE performs better on smaller datasets. The CNN does however have a considerable shorter training time.  Det här examensarbetet beskriver utveckningen och utvärderingen av ett artificiellt neuronnät som har tränats för att prediktera kromotografisk retentionstid för peptider baserat på dess aminosyrasekvens. Syftet med att prediktera retentionstider är  att kunna identifiera fler peptider i ”shotgun” proteomik experiment och att förbättra riktade masspektrometri experiment. Den slutgiltiga modellen i detta arbete är ett konvolutions neuronnät (CNN) bestående av två konvolutions lager följt av tre lager med fullt kopplade neuroner, alla med ’leaky rectifier’ som aktiveringsfunktion. Varje aminosyrasekvens representeras av en 20x25-matris X, där varje rad representerar en specifik aminosyra och kolumnerna beskriver aminosyrans position i peptiden. Den här modellen uppnår ett kvadratiskt medelfel motsvarande 3.8% av körtiden för vätskekromatografin och ett 95 % konfidensinterval motsvarande 14% av körtiden, när CNN modellen tränas på 20 000 unika peptides från ett jästprov. CNN modellen presterar marginellt bättre än mjukvaran ELUDE när de är tränade på ett stort dataset, men för begränsade dataset så presenterar ELUDE bättre. CNN modellen tränar dock avsevärt mycket snabbare. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-190995TRITA-MAT-E ; 2016:48application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
description This thesis describes the development and evaluation of an artificial neural network, trained to predict the chromatographic retention times of peptides, based on their amino acid sequence. The purpose of accurately predicting retention times is to increase the number of protein identifications in shotgun proteomics and to improve targeted mass spectrometry experiment. The model presented in this thesis is a branched convolutional neural network (CNN) consisting of two convolutional layers, followed by three fully connected layers, all with leaky rectifier as the activation function. Each amino acid sequence is represented by a 20-by-20 matrix X, with each row corresponding to a certain amino acid and the columns representing the position of the amino acid in the peptide. This model achieves a RMSE corresponding to 3.8% of the total running time of the liquid chromatography and a 95 % confidence interval proportional to 14% of the running time, when trained on 20 000 unique peptides from a yeast sample. The CNN predicts retention times slightly more accurately than the software ELUDE when trained on a larger dataset, yet ELUDE performs better on smaller datasets. The CNN does however have a considerable shorter training time.  === Det här examensarbetet beskriver utveckningen och utvärderingen av ett artificiellt neuronnät som har tränats för att prediktera kromotografisk retentionstid för peptider baserat på dess aminosyrasekvens. Syftet med att prediktera retentionstider är  att kunna identifiera fler peptider i ”shotgun” proteomik experiment och att förbättra riktade masspektrometri experiment. Den slutgiltiga modellen i detta arbete är ett konvolutions neuronnät (CNN) bestående av två konvolutions lager följt av tre lager med fullt kopplade neuroner, alla med ’leaky rectifier’ som aktiveringsfunktion. Varje aminosyrasekvens representeras av en 20x25-matris X, där varje rad representerar en specifik aminosyra och kolumnerna beskriver aminosyrans position i peptiden. Den här modellen uppnår ett kvadratiskt medelfel motsvarande 3.8% av körtiden för vätskekromatografin och ett 95 % konfidensinterval motsvarande 14% av körtiden, när CNN modellen tränas på 20 000 unika peptides från ett jästprov. CNN modellen presterar marginellt bättre än mjukvaran ELUDE när de är tränade på ett stort dataset, men för begränsade dataset så presenterar ELUDE bättre. CNN modellen tränar dock avsevärt mycket snabbare.
author Väljamets, Sara
spellingShingle Väljamets, Sara
Peptide Retention Time Prediction using Artificial Neural Networks
author_facet Väljamets, Sara
author_sort Väljamets, Sara
title Peptide Retention Time Prediction using Artificial Neural Networks
title_short Peptide Retention Time Prediction using Artificial Neural Networks
title_full Peptide Retention Time Prediction using Artificial Neural Networks
title_fullStr Peptide Retention Time Prediction using Artificial Neural Networks
title_full_unstemmed Peptide Retention Time Prediction using Artificial Neural Networks
title_sort peptide retention time prediction using artificial neural networks
publisher KTH, Matematisk statistik
publishDate 2016
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-190995
work_keys_str_mv AT valjametssara peptideretentiontimepredictionusingartificialneuralnetworks
AT valjametssara peptidretentionstidspredikteringmedartificiellaneuronnat
_version_ 1718380173091405824