Development of empirical scoring funcions forn predicting proteinligand binding affinity
Submitted by Maria Cristina (library@lncc.br) on 2017-04-12T19:05:59Z No. of bitstreams: 1 tese_isabella_vfinal.pdf: 6145955 bytes, checksum: e3ed369e970ad7eb06b79a77ef921a9b (MD5) === Approved for entry into archive by Maria Cristina (library@lncc.br) on 2017-04-12T19:06:11Z (GMT) No. of bitstrea...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Laboratório Nacional de Computação Científica
2017
|
Subjects: | |
Online Access: | https://tede.lncc.br/handle/tede/247 |
id |
ndltd-IBICT-oai-tede-server.lncc.br-tede-247 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Moléculas - Modelos Modelagem molecular Molecular modeling CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR |
spellingShingle |
Moléculas - Modelos Modelagem molecular Molecular modeling CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR Guedes, Isabella Alvim Development of empirical scoring funcions forn predicting proteinligand binding affinity |
description |
Submitted by Maria Cristina (library@lncc.br) on 2017-04-12T19:05:59Z
No. of bitstreams: 1
tese_isabella_vfinal.pdf: 6145955 bytes, checksum: e3ed369e970ad7eb06b79a77ef921a9b (MD5) === Approved for entry into archive by Maria Cristina (library@lncc.br) on 2017-04-12T19:06:11Z (GMT) No. of bitstreams: 1
tese_isabella_vfinal.pdf: 6145955 bytes, checksum: e3ed369e970ad7eb06b79a77ef921a9b (MD5) === Made available in DSpace on 2017-04-12T19:06:22Z (GMT). No. of bitstreams: 1
tese_isabella_vfinal.pdf: 6145955 bytes, checksum: e3ed369e970ad7eb06b79a77ef921a9b (MD5)
Previous issue date: 2016-07-29 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) === Molecular docking is a methodology that aims to predict the binding modes and affinity of a small molecule within the binding site of the receptor target of interest. It is an approach widely used by the pharmaceutical industry and the academic community for identification and optimization of lead compounds, contributing to the reduction of cost, time and failures in the development of new drugs. Current docking methods and the associated scoring functions exhibit good performances in identifying experimental binding modes. However, the detection of active compounds among a decoy set of ligands and the accurate prediction of binding affinity remain challenging tasks. The DockThor program developed in our group has obtained promising results in comparative studies with other well established and widely used protein-ligand docking programs for predicting experimental binding modes. Despite useful for pose prediction, the current scoring function implemented in DockThor is not suitable for predicting binding affinities of protein-ligand complexes, obtaining no correlation with measured affinity data. In this work, we develop several scoring functions with physically-based features for predicting binding affinities of protein-ligand complexes trained with diverse machine learning techniques. The final scoring functions consist of force-field based terms related to the intermolecular interactions (electrostatic and van der Waals potentials), an original term for the ligand entropy (number of frozen rotatable bonds), ligand and protein desolvation and the hydrophobic effect. Then, we developed general and target-classes scoring functions, the last to account for binding characteristics associated with a target class of interest, focusing on proteases, kinases and protein-protein interactions complexes (PPIs). The scoring functions were derived using linear regression (MLR) and seven more advanced machine learning techniques for nonlinear problems. The training and testing were carried out using high-quality datasets composed of experimental structures of diverse protein-ligand complexes with binding affinities data available (Kd or Ki). Additionally, we also derived general scoring functions trained with redocking results from the DockThor program. The scoring functions trained with docking results obtained promising performances when evaluated in both experimental and docking structures, indicating that they are reliable to be used in real virtual screening experiments. The scoring functions developed in this work have demonstrated to be competitive with the best-evaluated linear and nonlinear scoring functions in benchmarking studies described in the literature. The scoring functions derived for specific classes of targets also exhibited promising performances, achieving great improvements when using nonlinear approaches compared to the linear models. Moreover, the consensus scoring strategy investigated in this work exhibited impressive results, ranking among the top-three models with the best predictive performances on all cases. The development of the scoring functions implemented in this thesis is a crucial step to make the DockThor an even more competitive program, enabling the development of the high-throughput virtual screening program and portal DockThor-VS. === Atracamento molecular é uma metodologia que tem por objetivo prever a conformação e a afinidade de uma pequena molécula no sítio de ligação do receptor alvo de interesse. É uma abordagem amplamente utilizada pela indústria farmacêutica e pela comunidade acadêmica para identificação e otimização de compostos líderes, contribuindo para a redução de custo, tempo e falhas no desenvolvimento de novos fármacos. As metodologias atuais de atracamento molecular e as funções de avaliação associadas possuem bom desempenho em identificar modos de ligação. Entretanto, a detecção de compostos ativos dentre inativos e a predição acurada da afinidade de ligação ainda são grandes desafios. O programa DockThor, desenvolvido pelo nosso grupo de pesquisa, tem obtido resultados promissores em estudos comparativos com outros programas de atracamento molecular bem estabelecidos e amplamente utilizados pela comunidade científica para a predição de modos de ligação. Apesar de ser bastante útil para predição de poses, a função de avaliação atualmente implementada no DockThor não é adequada para prever afinidade de complexos proteína-ligante, não obtendo correlação com dados experimentais. Neste trabalho, nós desenvolvemos diversas funções de avaliação com características baseadas na física para prever afinidade de ligação de complexos proteína-ligante, treinadas com diversas técnicas de aprendizagem de máquina. As funções de avaliação finais consistem de termos baseados em campo de força relacionados com as interações intermoleculares (potenciais eletrostático e de van der Waals), um termo original para a entropia do ligante (número de ligações rotacionáveis congeladas), dessolvatação do ligante e da proteína e o efeito hidrofóbico. Desenvolvemos então funções de avaliação gerais e específicas para classes de alvos, esta para considerar características específicas associadas com a classe de alvo de interesse, focando em proteases, cinases e complexos de interações proteína-proteína (PPIs). As funções de avaliação foram derivadas utilizando regressão linear (MLR) e sete outras técnicas mais avançadas de aprendizagem de máquina para problemas não lineares. O processo de treinamento e teste foi realizado utilizando conjuntos de dados de alta qualidade compostos de estruturas experimentais de diversos complexos proteína-ligante com dados de afinidade de ligação disponíveis (Kd ou Ki). Adicionalmente, também derivamos funções de avaliação gerais treinadas com resultados do atracamento molecular com o programa DockThor. As funções treinadas com resultados de atracamento obtiveram desempenho promissor quando avaliadas tanto em estruturas experimentais quanto provenientes de atracamento molecular, indicando que elas são confiáveis para serem usadas em experimentos reais de triagem virtual. As funções desenvolvidas neste trabalho demonstraram ser competitivas com as melhores funções de avaliação lineares e não lineares em estudos comparativos descritas na literatura. As funções específicas para classes de alvos também exibiram desempenhos promissores, alcançando significativa melhoria quando utilizando abordagens não lineares comparadas com os modelos lineares. Além disso, a estratégia de avaliação consenso investigada neste trabalho exibiu resultados impressionantes, ficando entre os três melhores modelos com melhores desempenhos preditivos em todos os casos. O desenvolvimento das funções de avaliação implementadas nesta tese é um passo crucial para tornar o programa DockThor ainda mais competitivo, possibilitando o desenvolvimento do programa e do portal de triagem virtual em larga escala DockThor-VS. |
author2 |
Dardenne, Laurent Emmanuel |
author_facet |
Dardenne, Laurent Emmanuel Guedes, Isabella Alvim |
author |
Guedes, Isabella Alvim |
author_sort |
Guedes, Isabella Alvim |
title |
Development of empirical scoring funcions forn predicting proteinligand binding affinity |
title_short |
Development of empirical scoring funcions forn predicting proteinligand binding affinity |
title_full |
Development of empirical scoring funcions forn predicting proteinligand binding affinity |
title_fullStr |
Development of empirical scoring funcions forn predicting proteinligand binding affinity |
title_full_unstemmed |
Development of empirical scoring funcions forn predicting proteinligand binding affinity |
title_sort |
development of empirical scoring funcions forn predicting proteinligand binding affinity |
publisher |
Laboratório Nacional de Computação Científica |
publishDate |
2017 |
url |
https://tede.lncc.br/handle/tede/247 |
work_keys_str_mv |
AT guedesisabellaalvim developmentofempiricalscoringfuncionsfornpredictingproteinligandbindingaffinity AT guedesisabellaalvim desenvolvimentodefuncoesempiricasparapreverafinidadedeligacaoproteinaligante |
_version_ |
1718960286794252288 |
spelling |
ndltd-IBICT-oai-tede-server.lncc.br-tede-2472019-01-22T03:10:46Z Development of empirical scoring funcions forn predicting proteinligand binding affinity Desenvolvimento de funções empíricas para prever afinidade de ligação proteína-ligante Guedes, Isabella Alvim Dardenne, Laurent Emmanuel Barreto, André da Motta Salles Andricopulo, Adriano Defini Sant'Anna, Carlos Mauricio Rabelo Caffarena, Ernesto Raul Barbosa, Helio José Corrêa Moléculas - Modelos Modelagem molecular Molecular modeling CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR Submitted by Maria Cristina (library@lncc.br) on 2017-04-12T19:05:59Z No. of bitstreams: 1 tese_isabella_vfinal.pdf: 6145955 bytes, checksum: e3ed369e970ad7eb06b79a77ef921a9b (MD5) Approved for entry into archive by Maria Cristina (library@lncc.br) on 2017-04-12T19:06:11Z (GMT) No. of bitstreams: 1 tese_isabella_vfinal.pdf: 6145955 bytes, checksum: e3ed369e970ad7eb06b79a77ef921a9b (MD5) Made available in DSpace on 2017-04-12T19:06:22Z (GMT). No. of bitstreams: 1 tese_isabella_vfinal.pdf: 6145955 bytes, checksum: e3ed369e970ad7eb06b79a77ef921a9b (MD5) Previous issue date: 2016-07-29 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) Molecular docking is a methodology that aims to predict the binding modes and affinity of a small molecule within the binding site of the receptor target of interest. It is an approach widely used by the pharmaceutical industry and the academic community for identification and optimization of lead compounds, contributing to the reduction of cost, time and failures in the development of new drugs. Current docking methods and the associated scoring functions exhibit good performances in identifying experimental binding modes. However, the detection of active compounds among a decoy set of ligands and the accurate prediction of binding affinity remain challenging tasks. The DockThor program developed in our group has obtained promising results in comparative studies with other well established and widely used protein-ligand docking programs for predicting experimental binding modes. Despite useful for pose prediction, the current scoring function implemented in DockThor is not suitable for predicting binding affinities of protein-ligand complexes, obtaining no correlation with measured affinity data. In this work, we develop several scoring functions with physically-based features for predicting binding affinities of protein-ligand complexes trained with diverse machine learning techniques. The final scoring functions consist of force-field based terms related to the intermolecular interactions (electrostatic and van der Waals potentials), an original term for the ligand entropy (number of frozen rotatable bonds), ligand and protein desolvation and the hydrophobic effect. Then, we developed general and target-classes scoring functions, the last to account for binding characteristics associated with a target class of interest, focusing on proteases, kinases and protein-protein interactions complexes (PPIs). The scoring functions were derived using linear regression (MLR) and seven more advanced machine learning techniques for nonlinear problems. The training and testing were carried out using high-quality datasets composed of experimental structures of diverse protein-ligand complexes with binding affinities data available (Kd or Ki). Additionally, we also derived general scoring functions trained with redocking results from the DockThor program. The scoring functions trained with docking results obtained promising performances when evaluated in both experimental and docking structures, indicating that they are reliable to be used in real virtual screening experiments. The scoring functions developed in this work have demonstrated to be competitive with the best-evaluated linear and nonlinear scoring functions in benchmarking studies described in the literature. The scoring functions derived for specific classes of targets also exhibited promising performances, achieving great improvements when using nonlinear approaches compared to the linear models. Moreover, the consensus scoring strategy investigated in this work exhibited impressive results, ranking among the top-three models with the best predictive performances on all cases. The development of the scoring functions implemented in this thesis is a crucial step to make the DockThor an even more competitive program, enabling the development of the high-throughput virtual screening program and portal DockThor-VS. Atracamento molecular é uma metodologia que tem por objetivo prever a conformação e a afinidade de uma pequena molécula no sítio de ligação do receptor alvo de interesse. É uma abordagem amplamente utilizada pela indústria farmacêutica e pela comunidade acadêmica para identificação e otimização de compostos líderes, contribuindo para a redução de custo, tempo e falhas no desenvolvimento de novos fármacos. As metodologias atuais de atracamento molecular e as funções de avaliação associadas possuem bom desempenho em identificar modos de ligação. Entretanto, a detecção de compostos ativos dentre inativos e a predição acurada da afinidade de ligação ainda são grandes desafios. O programa DockThor, desenvolvido pelo nosso grupo de pesquisa, tem obtido resultados promissores em estudos comparativos com outros programas de atracamento molecular bem estabelecidos e amplamente utilizados pela comunidade científica para a predição de modos de ligação. Apesar de ser bastante útil para predição de poses, a função de avaliação atualmente implementada no DockThor não é adequada para prever afinidade de complexos proteína-ligante, não obtendo correlação com dados experimentais. Neste trabalho, nós desenvolvemos diversas funções de avaliação com características baseadas na física para prever afinidade de ligação de complexos proteína-ligante, treinadas com diversas técnicas de aprendizagem de máquina. As funções de avaliação finais consistem de termos baseados em campo de força relacionados com as interações intermoleculares (potenciais eletrostático e de van der Waals), um termo original para a entropia do ligante (número de ligações rotacionáveis congeladas), dessolvatação do ligante e da proteína e o efeito hidrofóbico. Desenvolvemos então funções de avaliação gerais e específicas para classes de alvos, esta para considerar características específicas associadas com a classe de alvo de interesse, focando em proteases, cinases e complexos de interações proteína-proteína (PPIs). As funções de avaliação foram derivadas utilizando regressão linear (MLR) e sete outras técnicas mais avançadas de aprendizagem de máquina para problemas não lineares. O processo de treinamento e teste foi realizado utilizando conjuntos de dados de alta qualidade compostos de estruturas experimentais de diversos complexos proteína-ligante com dados de afinidade de ligação disponíveis (Kd ou Ki). Adicionalmente, também derivamos funções de avaliação gerais treinadas com resultados do atracamento molecular com o programa DockThor. As funções treinadas com resultados de atracamento obtiveram desempenho promissor quando avaliadas tanto em estruturas experimentais quanto provenientes de atracamento molecular, indicando que elas são confiáveis para serem usadas em experimentos reais de triagem virtual. As funções desenvolvidas neste trabalho demonstraram ser competitivas com as melhores funções de avaliação lineares e não lineares em estudos comparativos descritas na literatura. As funções específicas para classes de alvos também exibiram desempenhos promissores, alcançando significativa melhoria quando utilizando abordagens não lineares comparadas com os modelos lineares. Além disso, a estratégia de avaliação consenso investigada neste trabalho exibiu resultados impressionantes, ficando entre os três melhores modelos com melhores desempenhos preditivos em todos os casos. O desenvolvimento das funções de avaliação implementadas nesta tese é um passo crucial para tornar o programa DockThor ainda mais competitivo, possibilitando o desenvolvimento do programa e do portal de triagem virtual em larga escala DockThor-VS. 2017-04-12T19:06:22Z 2016-07-29 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis Guedes, Isabella AlvimDevelopment of empirical scoring funcions forn predicting proteinligand binding affinity, 2016,xxi, 174. Tese, Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2016. https://tede.lncc.br/handle/tede/247 por info:eu-repo/semantics/openAccess application/pdf Laboratório Nacional de Computação Científica Programa de Pós-Graduação em Modelagem Computacional LNCC Brasil Coordenação de Pós-Graduação e Aperfeiçoamento reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica instacron:LNCC |