Summary: | Magíster en Ciencias de la Ingeniería, Mención Química === El objetivo de este estudio es desarrollar un método computacional capaz de predecir con alta especificidad y sensibilidad los genes pequeños de ARN no codificante en genomas bacterianos, identificando las variables involucradas de mayor importancia que deben ser consideradas para su correcta clasificación.
El trabajo aquí presentado consistió en investigar y analizar el estado del arte en métodos de predicción computacional de genes pequeños de ARN no codificante en bacterias, recopilar un listado de las variables involucradas y determinar estadísticamente aquellas que diferencian con mayor precisión los genes pequeños de ARN no codificante de secuencias genéticas al azar, comparar distintos métodos de predicción e identificar el que otorgue mejores resultados. Finalmente, se compararon los resultados del método con otros preexistentes y se aplicó el método al genoma completo de Escherichia coli.
Los principales resultados obtenidos en este estudio son la identificación de 4 variables que influyen significativamente en la detección correcta de genes pequeños de ARN no codificante. Estas son: Valor z, Valor de partición, EMPI y Porcentaje de bultos, las cuales corresponden al subconjunto de variables con mayor capacidad discriminatoria. Por este motivo se recomienda que futuros métodos predictivos consideren la inclusión de estas 4 variables.
Las variables seleccionadas muestran que existe una presión selectiva en la evolución de los genes pequeños de ARN no codificante, la que apunta a aumentar la estabilidad de la molécula al modificar su estructura para disminuir la energía de plegamiento y eliminar subestructuras desestabilizantes no funcionales.
El mejor método de clasificación corresponde al Perceptrón Multicapa basado en redes neuronales, con una alta sensibilidad (88,8%) y alta especificidad (85,5%), teniendo una tasa de falsos positivos relativamente baja (14,5%).
Con este subconjunto de variables y el método de clasificación, se realizó una predicción sobre el genoma de la bacteria Escherichia coli, generando 1192 predicciones, con un valor de sensibilidad de 30,5% y un valor predictivo positivo de 1,51 % respecto a los genes pequeños de ARN no codificante conocidos.
Seleccionando las predicciones cercanas a promotores σ70 o terminadores intrínsecos (independientes del factor ρ), se obtiene un desempeño predictivo similar al logrado por otros autores en la literatura, con el beneficio adicional de requerir la medición de sólo 4 variables y sin la necesidad de información sobre genes homólogos en organismos cercanos filogenéticamente.
La contribución de este trabajo consiste en profundizar el conocimiento acerca de las características de los genes de ARN no codificante, al haber estudiado las variables utilizadas previamente en la literatura y definir las 4 más relevantes, las cuales se relacionan directamente con la estructura secundaria y su energía mínima de plegamiento.
En segundo lugar se propone un listado de 1192 secuencias del genoma de Escherichia coli y un listado más corto con las 5 más probables de ser genes sARN, estas secuencias pueden ser comprobadas experimentalmente.
Estos resultados inciden positivamente en mejorar la calidad de las anotaciones de estos genes en genomas bacterianos, permitiendo mayores avances en estudios de genómica funcional y regulación en redes metabólicas.
|