Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para disminuir los costes e...
Main Author: | |
---|---|
Other Authors: | |
Language: | es |
Published: |
Universidad de Chile
2012
|
Subjects: | |
Online Access: | http://repositorio.uchile.cl/handle/2250/102770 |
id |
ndltd-UCHILE-oai-repositorio.uchile.cl-2250-102770 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
es |
sources |
NDLTD |
topic |
Química Proteínas Modelos matemáticos Cromatografía Hidrofobicidad |
spellingShingle |
Química Proteínas Modelos matemáticos Cromatografía Hidrofobicidad Ugarte Humeres, Jorge Enrique Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas |
description |
El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los
ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las
técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para
disminuir los costes en I+D, se puede reducir el tiempo de diseño de éstas utilizando modelos.
Dos técnicas utilizadas extensamente para la separación de proteínas son la cromatografía de
interacción hidrofóbica (HIC) y los sistemas de dos fases acuosas (ATPS), para las cuales
existen diversos modelos predictivos que se basan en una o más propiedades del sistema y/o la
molécula a separar. Las principales limitantes de estos modelos son la capacidad predictiva, y
la cantidad y coste de la información requerida. En los modelos que utilizan hidrofobicidad, una
limitante adicional es la escala de hidrofobicidad utilizada. Por esto, el presente trabajo tiene
como objetivo generar nuevas escalas de hidrofobicidad que mejoren el poder predictivo de
modelos reportados para el tiempo de retención adimensional (DRT) de proteínas en HIC, y el
coeficiente de partición (K) de proteínas en cuatro tipos de sistemas ATPS.
Se analizó un grupo reportado de 74 escalas de propiedades aminoacídicas (APVs), mediante
los siguientes algoritmos de clustering: Growing Neuronal Gas (GNG), Growing Grid (GG),
Hierarchical Clustering, Bisection Algorithm, Restricted Neigbouhood Search Algorithm, y
Markov Clustering Algorithm. Se utilizó también el algoritmo de optimización Genetic Algorithm
(GA). Para la predicción de DRT y K, en cada caso se utilizó un modelo que requiere la
estructura tridimensional de las proteínas y tres modelos que solo requieren la composición
aminoacídica, los que calculan o predicen la hidrofobicidad superficial media (ASH). El poder
predictivo de los modelos se calculó mediante validación cruzada de Jacknife.
A través de la metodología empleada se obtuvo 308.000 nuevas escalas, de las cuales un 93%
se generó con GNG, GG y GA, incluyendo las escalas más exitosas. En general, la utilización
de las nuevas escalas permitió desarrollar modelos con un mejor poder predictivo que los
basados en escalas reportadas en literatura. Estas mejoras se reflejaron en un aumento del
poder predictivo entre un 11% y un 99,6% en un 81% de los casos con respecto al
caso base. De forma simultánea, dentro de los modelos con aumento del poder predictivo se
obtuvo mejoras en el nivel de ajuste, medido a través del Coeficiente de Pearson, de un 4% a
un 300% en 28 de 42 casos (67%).
A partir del estudio de las mejores escalas obtenidas y los APVs, se concluyó que existe
transferencia de propiedades desde estos últimos a las escalas generadas con GNG y GG. Por
otro lado, se descartó transferencia de propiedades a las escalas generadas con GA, sin
embargo, se validó su uso.
Se determinó que las mejores escalas contienen información de APVs asociados a estudios de:
hidrofobicidad en sistemas físicoquímicos (HIC y ATPS), hidrofobicidad de aminoácidos en
proteínas, y propensión conformacional de aminoácidos en proteínas. Los resultados obtenidos
sugieren que incluir APVs del tipo conformacional permite mejorar las escalas obtenidas,
disminuyendo el sesgo introducido por el uso de la ASH. Lo anterior sugiere que una escala que
refleje la probabilidad de ocurrencia de cada aminoácido en distintos tipos de estructurasconfiguraciones
existentes en la superficie de las proteínas, y que incorpore el potencial
hidrofóbico de cada de éstas, podría ser útil para mejorar el poder predictivo de los modelos.
En conclusión, a través del uso de algoritmos de clustering y optimización se logró un aumento
significativo del poder predictivo de los modelos para HIC y ATPS, el que incluso es mayor al
que se obtiene con otros modelos que incorporan directamente más información experimental,
lo que permite reducir costes en I+D. La contribución realizada postula nuevas interrogantes y
sugiere caminos que amplían y perfeccionan la búsqueda de metodologías para generar
mejores modelos predictivos del comportamiento de proteínas en sistemas de separación, que
requieren sólo la composición aminoacídica de las proteínas. |
author2 |
Salgado Herrera, José Cristián |
author_facet |
Salgado Herrera, José Cristián Ugarte Humeres, Jorge Enrique |
author |
Ugarte Humeres, Jorge Enrique |
author_sort |
Ugarte Humeres, Jorge Enrique |
title |
Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas |
title_short |
Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas |
title_full |
Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas |
title_fullStr |
Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas |
title_full_unstemmed |
Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas |
title_sort |
uso de algoritmos de clustering para predecir el comportamiento de proteínas en cromatografía de interacción hidrofobica y sistema de dos fases acuosas |
publisher |
Universidad de Chile |
publishDate |
2012 |
url |
http://repositorio.uchile.cl/handle/2250/102770 |
work_keys_str_mv |
AT ugartehumeresjorgeenrique usodealgoritmosdeclusteringparapredecirelcomportamientodeproteinasencromatografiadeinteraccionhidrofobicaysistemadedosfasesacuosas |
_version_ |
1718742635110203392 |
spelling |
ndltd-UCHILE-oai-repositorio.uchile.cl-2250-1027702018-09-26T05:18:57Z Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas Ugarte Humeres, Jorge Enrique Salgado Herrera, José Cristián Olivera Nappa, Alvaro Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Química y Biotecnología Andrews Farrow, Bárbara Lienqueo Contreras, María Elena Mahn Osses, Andrea Química Proteínas Modelos matemáticos Cromatografía Hidrofobicidad El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para disminuir los costes en I+D, se puede reducir el tiempo de diseño de éstas utilizando modelos. Dos técnicas utilizadas extensamente para la separación de proteínas son la cromatografía de interacción hidrofóbica (HIC) y los sistemas de dos fases acuosas (ATPS), para las cuales existen diversos modelos predictivos que se basan en una o más propiedades del sistema y/o la molécula a separar. Las principales limitantes de estos modelos son la capacidad predictiva, y la cantidad y coste de la información requerida. En los modelos que utilizan hidrofobicidad, una limitante adicional es la escala de hidrofobicidad utilizada. Por esto, el presente trabajo tiene como objetivo generar nuevas escalas de hidrofobicidad que mejoren el poder predictivo de modelos reportados para el tiempo de retención adimensional (DRT) de proteínas en HIC, y el coeficiente de partición (K) de proteínas en cuatro tipos de sistemas ATPS. Se analizó un grupo reportado de 74 escalas de propiedades aminoacídicas (APVs), mediante los siguientes algoritmos de clustering: Growing Neuronal Gas (GNG), Growing Grid (GG), Hierarchical Clustering, Bisection Algorithm, Restricted Neigbouhood Search Algorithm, y Markov Clustering Algorithm. Se utilizó también el algoritmo de optimización Genetic Algorithm (GA). Para la predicción de DRT y K, en cada caso se utilizó un modelo que requiere la estructura tridimensional de las proteínas y tres modelos que solo requieren la composición aminoacídica, los que calculan o predicen la hidrofobicidad superficial media (ASH). El poder predictivo de los modelos se calculó mediante validación cruzada de Jacknife. A través de la metodología empleada se obtuvo 308.000 nuevas escalas, de las cuales un 93% se generó con GNG, GG y GA, incluyendo las escalas más exitosas. En general, la utilización de las nuevas escalas permitió desarrollar modelos con un mejor poder predictivo que los basados en escalas reportadas en literatura. Estas mejoras se reflejaron en un aumento del poder predictivo entre un 11% y un 99,6% en un 81% de los casos con respecto al caso base. De forma simultánea, dentro de los modelos con aumento del poder predictivo se obtuvo mejoras en el nivel de ajuste, medido a través del Coeficiente de Pearson, de un 4% a un 300% en 28 de 42 casos (67%). A partir del estudio de las mejores escalas obtenidas y los APVs, se concluyó que existe transferencia de propiedades desde estos últimos a las escalas generadas con GNG y GG. Por otro lado, se descartó transferencia de propiedades a las escalas generadas con GA, sin embargo, se validó su uso. Se determinó que las mejores escalas contienen información de APVs asociados a estudios de: hidrofobicidad en sistemas físicoquímicos (HIC y ATPS), hidrofobicidad de aminoácidos en proteínas, y propensión conformacional de aminoácidos en proteínas. Los resultados obtenidos sugieren que incluir APVs del tipo conformacional permite mejorar las escalas obtenidas, disminuyendo el sesgo introducido por el uso de la ASH. Lo anterior sugiere que una escala que refleje la probabilidad de ocurrencia de cada aminoácido en distintos tipos de estructurasconfiguraciones existentes en la superficie de las proteínas, y que incorpore el potencial hidrofóbico de cada de éstas, podría ser útil para mejorar el poder predictivo de los modelos. En conclusión, a través del uso de algoritmos de clustering y optimización se logró un aumento significativo del poder predictivo de los modelos para HIC y ATPS, el que incluso es mayor al que se obtiene con otros modelos que incorporan directamente más información experimental, lo que permite reducir costes en I+D. La contribución realizada postula nuevas interrogantes y sugiere caminos que amplían y perfeccionan la búsqueda de metodologías para generar mejores modelos predictivos del comportamiento de proteínas en sistemas de separación, que requieren sólo la composición aminoacídica de las proteínas. 2012-09-12T18:12:10Z 2012-09-12T18:12:10Z 2012 Tesis http://repositorio.uchile.cl/handle/2250/102770 es Attribution-NonCommercial-NoDerivs 3.0 Chile http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ Universidad de Chile |