Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas

El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para disminuir los costes e...

Full description

Bibliographic Details
Main Author: Ugarte Humeres, Jorge Enrique
Other Authors: Salgado Herrera, José Cristián
Language:es
Published: Universidad de Chile 2012
Subjects:
Online Access:http://repositorio.uchile.cl/handle/2250/102770
id ndltd-UCHILE-oai-repositorio.uchile.cl-2250-102770
record_format oai_dc
collection NDLTD
language es
sources NDLTD
topic Química
Proteínas
Modelos matemáticos
Cromatografía
Hidrofobicidad
spellingShingle Química
Proteínas
Modelos matemáticos
Cromatografía
Hidrofobicidad
Ugarte Humeres, Jorge Enrique
Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
description El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para disminuir los costes en I+D, se puede reducir el tiempo de diseño de éstas utilizando modelos. Dos técnicas utilizadas extensamente para la separación de proteínas son la cromatografía de interacción hidrofóbica (HIC) y los sistemas de dos fases acuosas (ATPS), para las cuales existen diversos modelos predictivos que se basan en una o más propiedades del sistema y/o la molécula a separar. Las principales limitantes de estos modelos son la capacidad predictiva, y la cantidad y coste de la información requerida. En los modelos que utilizan hidrofobicidad, una limitante adicional es la escala de hidrofobicidad utilizada. Por esto, el presente trabajo tiene como objetivo generar nuevas escalas de hidrofobicidad que mejoren el poder predictivo de modelos reportados para el tiempo de retención adimensional (DRT) de proteínas en HIC, y el coeficiente de partición (K) de proteínas en cuatro tipos de sistemas ATPS. Se analizó un grupo reportado de 74 escalas de propiedades aminoacídicas (APVs), mediante los siguientes algoritmos de clustering: Growing Neuronal Gas (GNG), Growing Grid (GG), Hierarchical Clustering, Bisection Algorithm, Restricted Neigbouhood Search Algorithm, y Markov Clustering Algorithm. Se utilizó también el algoritmo de optimización Genetic Algorithm (GA). Para la predicción de DRT y K, en cada caso se utilizó un modelo que requiere la estructura tridimensional de las proteínas y tres modelos que solo requieren la composición aminoacídica, los que calculan o predicen la hidrofobicidad superficial media (ASH). El poder predictivo de los modelos se calculó mediante validación cruzada de Jacknife. A través de la metodología empleada se obtuvo 308.000 nuevas escalas, de las cuales un 93% se generó con GNG, GG y GA, incluyendo las escalas más exitosas. En general, la utilización de las nuevas escalas permitió desarrollar modelos con un mejor poder predictivo que los basados en escalas reportadas en literatura. Estas mejoras se reflejaron en un aumento del poder predictivo entre un 11% y un 99,6% en un 81% de los casos con respecto al caso base. De forma simultánea, dentro de los modelos con aumento del poder predictivo se obtuvo mejoras en el nivel de ajuste, medido a través del Coeficiente de Pearson, de un 4% a un 300% en 28 de 42 casos (67%). A partir del estudio de las mejores escalas obtenidas y los APVs, se concluyó que existe transferencia de propiedades desde estos últimos a las escalas generadas con GNG y GG. Por otro lado, se descartó transferencia de propiedades a las escalas generadas con GA, sin embargo, se validó su uso. Se determinó que las mejores escalas contienen información de APVs asociados a estudios de: hidrofobicidad en sistemas físicoquímicos (HIC y ATPS), hidrofobicidad de aminoácidos en proteínas, y propensión conformacional de aminoácidos en proteínas. Los resultados obtenidos sugieren que incluir APVs del tipo conformacional permite mejorar las escalas obtenidas, disminuyendo el sesgo introducido por el uso de la ASH. Lo anterior sugiere que una escala que refleje la probabilidad de ocurrencia de cada aminoácido en distintos tipos de estructurasconfiguraciones existentes en la superficie de las proteínas, y que incorpore el potencial hidrofóbico de cada de éstas, podría ser útil para mejorar el poder predictivo de los modelos. En conclusión, a través del uso de algoritmos de clustering y optimización se logró un aumento significativo del poder predictivo de los modelos para HIC y ATPS, el que incluso es mayor al que se obtiene con otros modelos que incorporan directamente más información experimental, lo que permite reducir costes en I+D. La contribución realizada postula nuevas interrogantes y sugiere caminos que amplían y perfeccionan la búsqueda de metodologías para generar mejores modelos predictivos del comportamiento de proteínas en sistemas de separación, que requieren sólo la composición aminoacídica de las proteínas.
author2 Salgado Herrera, José Cristián
author_facet Salgado Herrera, José Cristián
Ugarte Humeres, Jorge Enrique
author Ugarte Humeres, Jorge Enrique
author_sort Ugarte Humeres, Jorge Enrique
title Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
title_short Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
title_full Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
title_fullStr Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
title_full_unstemmed Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
title_sort uso de algoritmos de clustering para predecir el comportamiento de proteínas en cromatografía de interacción hidrofobica y sistema de dos fases acuosas
publisher Universidad de Chile
publishDate 2012
url http://repositorio.uchile.cl/handle/2250/102770
work_keys_str_mv AT ugartehumeresjorgeenrique usodealgoritmosdeclusteringparapredecirelcomportamientodeproteinasencromatografiadeinteraccionhidrofobicaysistemadedosfasesacuosas
_version_ 1718742635110203392
spelling ndltd-UCHILE-oai-repositorio.uchile.cl-2250-1027702018-09-26T05:18:57Z Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas Ugarte Humeres, Jorge Enrique Salgado Herrera, José Cristián Olivera Nappa, Alvaro Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Química y Biotecnología Andrews Farrow, Bárbara Lienqueo Contreras, María Elena Mahn Osses, Andrea Química Proteínas Modelos matemáticos Cromatografía Hidrofobicidad El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para disminuir los costes en I+D, se puede reducir el tiempo de diseño de éstas utilizando modelos. Dos técnicas utilizadas extensamente para la separación de proteínas son la cromatografía de interacción hidrofóbica (HIC) y los sistemas de dos fases acuosas (ATPS), para las cuales existen diversos modelos predictivos que se basan en una o más propiedades del sistema y/o la molécula a separar. Las principales limitantes de estos modelos son la capacidad predictiva, y la cantidad y coste de la información requerida. En los modelos que utilizan hidrofobicidad, una limitante adicional es la escala de hidrofobicidad utilizada. Por esto, el presente trabajo tiene como objetivo generar nuevas escalas de hidrofobicidad que mejoren el poder predictivo de modelos reportados para el tiempo de retención adimensional (DRT) de proteínas en HIC, y el coeficiente de partición (K) de proteínas en cuatro tipos de sistemas ATPS. Se analizó un grupo reportado de 74 escalas de propiedades aminoacídicas (APVs), mediante los siguientes algoritmos de clustering: Growing Neuronal Gas (GNG), Growing Grid (GG), Hierarchical Clustering, Bisection Algorithm, Restricted Neigbouhood Search Algorithm, y Markov Clustering Algorithm. Se utilizó también el algoritmo de optimización Genetic Algorithm (GA). Para la predicción de DRT y K, en cada caso se utilizó un modelo que requiere la estructura tridimensional de las proteínas y tres modelos que solo requieren la composición aminoacídica, los que calculan o predicen la hidrofobicidad superficial media (ASH). El poder predictivo de los modelos se calculó mediante validación cruzada de Jacknife. A través de la metodología empleada se obtuvo 308.000 nuevas escalas, de las cuales un 93% se generó con GNG, GG y GA, incluyendo las escalas más exitosas. En general, la utilización de las nuevas escalas permitió desarrollar modelos con un mejor poder predictivo que los basados en escalas reportadas en literatura. Estas mejoras se reflejaron en un aumento del poder predictivo entre un 11% y un 99,6% en un 81% de los casos con respecto al caso base. De forma simultánea, dentro de los modelos con aumento del poder predictivo se obtuvo mejoras en el nivel de ajuste, medido a través del Coeficiente de Pearson, de un 4% a un 300% en 28 de 42 casos (67%). A partir del estudio de las mejores escalas obtenidas y los APVs, se concluyó que existe transferencia de propiedades desde estos últimos a las escalas generadas con GNG y GG. Por otro lado, se descartó transferencia de propiedades a las escalas generadas con GA, sin embargo, se validó su uso. Se determinó que las mejores escalas contienen información de APVs asociados a estudios de: hidrofobicidad en sistemas físicoquímicos (HIC y ATPS), hidrofobicidad de aminoácidos en proteínas, y propensión conformacional de aminoácidos en proteínas. Los resultados obtenidos sugieren que incluir APVs del tipo conformacional permite mejorar las escalas obtenidas, disminuyendo el sesgo introducido por el uso de la ASH. Lo anterior sugiere que una escala que refleje la probabilidad de ocurrencia de cada aminoácido en distintos tipos de estructurasconfiguraciones existentes en la superficie de las proteínas, y que incorpore el potencial hidrofóbico de cada de éstas, podría ser útil para mejorar el poder predictivo de los modelos. En conclusión, a través del uso de algoritmos de clustering y optimización se logró un aumento significativo del poder predictivo de los modelos para HIC y ATPS, el que incluso es mayor al que se obtiene con otros modelos que incorporan directamente más información experimental, lo que permite reducir costes en I+D. La contribución realizada postula nuevas interrogantes y sugiere caminos que amplían y perfeccionan la búsqueda de metodologías para generar mejores modelos predictivos del comportamiento de proteínas en sistemas de separación, que requieren sólo la composición aminoacídica de las proteínas. 2012-09-12T18:12:10Z 2012-09-12T18:12:10Z 2012 Tesis http://repositorio.uchile.cl/handle/2250/102770 es Attribution-NonCommercial-NoDerivs 3.0 Chile http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ Universidad de Chile