Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama

Grado de magíster en informática médica === Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación entre los estudios en ciencias básicas y la clínica para mejorar...

Full description

Bibliographic Details
Main Author: Araneda García, Patricio Miguel
Other Authors: Assar Cuevas, Rodrigo
Language:es
Published: Universidad de Chile 2019
Subjects:
Online Access:http://repositorio.uchile.cl/handle/2250/168327
id ndltd-UCHILE-oai-repositorio.uchile.cl-2250-168327
record_format oai_dc
collection NDLTD
language es
sources NDLTD
topic Informática médica
Enfermedad de Alzheimer
Neoplasias de la mama
spellingShingle Informática médica
Enfermedad de Alzheimer
Neoplasias de la mama
Araneda García, Patricio Miguel
Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
description Grado de magíster en informática médica === Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación entre los estudios en ciencias básicas y la clínica para mejorar los diagnósticos y tratamientos de los pacientes. Accediendo a mayor información del paciente, en particular genómica, se busca definir de mejor manera el fenotipo de su enfermedad y con ello decidir su mejor tratamiento. Sin embargo, la gran cantidad y heterogeneidad de los datos disponibles hace complejo el descubrimiento de información relevante (definir el fenotipo). Para abordar este problema es necesario desarrollar un sistema que permita integrar los estudios realizados a cada paciente y asociar sus resultados. En este trabajo se propone implementar una plataforma (Datagenomed) constituida por un modelo de base de datos “híbrida” basado en PostgreSQL y almacenamiento JSON (NoSQL) y un conjunto de herramientas computacionales que permitan asociar la información clínica del paciente con la información genómica. Un software de gestión de datos que registre tanto información clínica (diagnóstica) como los resultados de secuenciación de ADN y que permita la búsqueda de información pertinente en repositorios biológicos, añadiendo reportes estadísticos basados en el software R. La plataforma se adaptó a dos casos de estudio: i) información sobre Alzheimer basado en el proyecto Fondecyt No. 1140423 “Fisiopatología de la Apatía en la Enfermedad de Alzheimer: Un Estudio Experimental de Neuropsicología y Neuroimagen” (CA) liderado por la Dra. Andrea Slachevsky y ii) información de cáncer de mama del proyecto Fondef N. D11I1029 “Incorporación de la Secuenciación de Última Generación en el Cuidado de los Pacientes con Cáncer” (CC) proporcionado por la Dra. Katherine Marcelain. Los datos clínicos provinieron de recolección de fichas clínicas hospitalarias, junto a datos demográficos (solo para CA). Los datos genómicos se obtuvieron del análisis de archivos Fastq de muestras de sangre y/o tejido procesados mediante next-generation DNA sequencing (NGS) (CC). Para adaptarse a la naturaleza disímil de los datos registrados, la información se almacenó en un nuevo sistema de bases de datos híbrido, permitiendo tanto datos clínicos estructurados como datos genómicos de tipo documental. La implementación resultante cuenta con un sistema de filtrado y búsquedas de términos en bases bibliográficas e información genómica en bases de datos biológicas; Pubmed, RefSeqGene, MedGen, dbSNP, Clinvar, Cosmic, Gene pudiendo agregarse otros recursos según necesidad. El objetivo de esta tesis es diseñar e implementar un conjunto de herramientas de software para permitir procesos de extracción, transformación y carga (ETL) de información sobre las bases de datos creadas y permitir consultas en línea mediante webservice. Dichos webservice se construyeron utilizando software open source y las mejores prácticas de diseño de interface, fuerte prototipado y técnicas de desarrollo xtreme programming. El fin último es que la información resultante esté disponible remotamente vía una plataforma que pueda ser consultada utilizando webservice desde cualquier sistema de registro clínico asociado. Como resultado se construyó una plataforma basada en tecnología web soportado sobre un motor de base de datos PostgreSQL utilizando Knime como herramienta para procesos de ETL. === In recent years translational medicine has emerged as a powerful tool for the study of complex diseases approach, the fundamental idea is to strengthen the feedback between basic and clinical studies to improve diagnosis and treatment of patients. Accessing more information on the patient, particularly genomics, seeks to better define the phenotype of the disease and thus determine their best treatment. However, due to the large amount of data and its heterogeneity the discovery of relevant information becomes complex (defining the phenotype). To address this problem it is necessary to develop a system that integrate studies and associate the patient outcomes. In this thesis we propose to implement a platform (DataGenomed) consisting of a database model and a set of computational tools that allow to associate clinical information with genomic information of patients. The proposed data management software to record clinical information (diagnostic) and the results of DNA sequencing and allows the search for relevant information in biological repositories, adding statistical reports based on the software R. The platform will tested two case studies: i) information on Alzheimer disease based on Fondecyt No. 1140423 project "Apathy Pathophysiology of Alzheimer's Disease: An Experimental Study of Neuropsychology and neuroimaging" project (CA) led by Dra. Andrea Slachevsky and ii) breast cancer information Fondef N. D11I1029 project "Incorporating Next Generation Sequencing Care in cancer Patients" (CC) led by Dra. Katherine Marcelain. Clinical data collection came from hospital medical records, along with demographic data (CA only). Genomic data was obtained from analysis files Fastq blood samples and / or tissue processed using next-generation DNA sequencing (NGS) (CC). To adapt us to the dissimilar nature of the recorded data, the information was stored in a new hybrid database system data, allowing both clinical structured data and genomic non structured document type. The resulting implementation has a filtering system and search terms in bibliographic databases and genomic information in biological databases; Pubmed, RefSeqGene, MedGen, dbSNP, Clinvar, Cosmic, Gene and it is posible to add other resources as needed. The aim of this thesis is to design and implement a set of software tools to allow extraction, transformation and loading (ETL) of information on databases created and allow online consultations via webservice. These best practices webservice interface design, prototyping and strong development techniques xtreme programming will be built using open source software. The final goal is that the resulting information is available remotely via a platform that can be accessed from any system using webservice and associated clinical record.
author2 Assar Cuevas, Rodrigo
author_facet Assar Cuevas, Rodrigo
Araneda García, Patricio Miguel
author Araneda García, Patricio Miguel
author_sort Araneda García, Patricio Miguel
title Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
title_short Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
title_full Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
title_fullStr Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
title_full_unstemmed Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
title_sort diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en alzheimer y cáncer de mama
publisher Universidad de Chile
publishDate 2019
url http://repositorio.uchile.cl/handle/2250/168327
work_keys_str_mv AT aranedagarciapatriciomiguel disenoymodelopreliminardeunaplataformadeintegraciondedatosclinicosygenomicosaplicacionesenalzheimerycancerdemama
_version_ 1719295069411868672
spelling ndltd-UCHILE-oai-repositorio.uchile.cl-2250-1683272019-11-22T09:15:51Z Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama Araneda García, Patricio Miguel Assar Cuevas, Rodrigo Universidad de Chile Facultad de Medicina Escuela de Postgrado Informática médica Enfermedad de Alzheimer Neoplasias de la mama Grado de magíster en informática médica Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación entre los estudios en ciencias básicas y la clínica para mejorar los diagnósticos y tratamientos de los pacientes. Accediendo a mayor información del paciente, en particular genómica, se busca definir de mejor manera el fenotipo de su enfermedad y con ello decidir su mejor tratamiento. Sin embargo, la gran cantidad y heterogeneidad de los datos disponibles hace complejo el descubrimiento de información relevante (definir el fenotipo). Para abordar este problema es necesario desarrollar un sistema que permita integrar los estudios realizados a cada paciente y asociar sus resultados. En este trabajo se propone implementar una plataforma (Datagenomed) constituida por un modelo de base de datos “híbrida” basado en PostgreSQL y almacenamiento JSON (NoSQL) y un conjunto de herramientas computacionales que permitan asociar la información clínica del paciente con la información genómica. Un software de gestión de datos que registre tanto información clínica (diagnóstica) como los resultados de secuenciación de ADN y que permita la búsqueda de información pertinente en repositorios biológicos, añadiendo reportes estadísticos basados en el software R. La plataforma se adaptó a dos casos de estudio: i) información sobre Alzheimer basado en el proyecto Fondecyt No. 1140423 “Fisiopatología de la Apatía en la Enfermedad de Alzheimer: Un Estudio Experimental de Neuropsicología y Neuroimagen” (CA) liderado por la Dra. Andrea Slachevsky y ii) información de cáncer de mama del proyecto Fondef N. D11I1029 “Incorporación de la Secuenciación de Última Generación en el Cuidado de los Pacientes con Cáncer” (CC) proporcionado por la Dra. Katherine Marcelain. Los datos clínicos provinieron de recolección de fichas clínicas hospitalarias, junto a datos demográficos (solo para CA). Los datos genómicos se obtuvieron del análisis de archivos Fastq de muestras de sangre y/o tejido procesados mediante next-generation DNA sequencing (NGS) (CC). Para adaptarse a la naturaleza disímil de los datos registrados, la información se almacenó en un nuevo sistema de bases de datos híbrido, permitiendo tanto datos clínicos estructurados como datos genómicos de tipo documental. La implementación resultante cuenta con un sistema de filtrado y búsquedas de términos en bases bibliográficas e información genómica en bases de datos biológicas; Pubmed, RefSeqGene, MedGen, dbSNP, Clinvar, Cosmic, Gene pudiendo agregarse otros recursos según necesidad. El objetivo de esta tesis es diseñar e implementar un conjunto de herramientas de software para permitir procesos de extracción, transformación y carga (ETL) de información sobre las bases de datos creadas y permitir consultas en línea mediante webservice. Dichos webservice se construyeron utilizando software open source y las mejores prácticas de diseño de interface, fuerte prototipado y técnicas de desarrollo xtreme programming. El fin último es que la información resultante esté disponible remotamente vía una plataforma que pueda ser consultada utilizando webservice desde cualquier sistema de registro clínico asociado. Como resultado se construyó una plataforma basada en tecnología web soportado sobre un motor de base de datos PostgreSQL utilizando Knime como herramienta para procesos de ETL. In recent years translational medicine has emerged as a powerful tool for the study of complex diseases approach, the fundamental idea is to strengthen the feedback between basic and clinical studies to improve diagnosis and treatment of patients. Accessing more information on the patient, particularly genomics, seeks to better define the phenotype of the disease and thus determine their best treatment. However, due to the large amount of data and its heterogeneity the discovery of relevant information becomes complex (defining the phenotype). To address this problem it is necessary to develop a system that integrate studies and associate the patient outcomes. In this thesis we propose to implement a platform (DataGenomed) consisting of a database model and a set of computational tools that allow to associate clinical information with genomic information of patients. The proposed data management software to record clinical information (diagnostic) and the results of DNA sequencing and allows the search for relevant information in biological repositories, adding statistical reports based on the software R. The platform will tested two case studies: i) information on Alzheimer disease based on Fondecyt No. 1140423 project "Apathy Pathophysiology of Alzheimer's Disease: An Experimental Study of Neuropsychology and neuroimaging" project (CA) led by Dra. Andrea Slachevsky and ii) breast cancer information Fondef N. D11I1029 project "Incorporating Next Generation Sequencing Care in cancer Patients" (CC) led by Dra. Katherine Marcelain. Clinical data collection came from hospital medical records, along with demographic data (CA only). Genomic data was obtained from analysis files Fastq blood samples and / or tissue processed using next-generation DNA sequencing (NGS) (CC). To adapt us to the dissimilar nature of the recorded data, the information was stored in a new hybrid database system data, allowing both clinical structured data and genomic non structured document type. The resulting implementation has a filtering system and search terms in bibliographic databases and genomic information in biological databases; Pubmed, RefSeqGene, MedGen, dbSNP, Clinvar, Cosmic, Gene and it is posible to add other resources as needed. The aim of this thesis is to design and implement a set of software tools to allow extraction, transformation and loading (ETL) of information on databases created and allow online consultations via webservice. These best practices webservice interface design, prototyping and strong development techniques xtreme programming will be built using open source software. The final goal is that the resulting information is available remotely via a platform that can be accessed from any system using webservice and associated clinical record. 2019-04-29T16:01:46Z 2019-04-29T16:01:46Z 2016 Tesis http://repositorio.uchile.cl/handle/2250/168327 es Attribution-NonCommercial-NoDerivs 3.0 Chile http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ Universidad de Chile