Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
Grado de magíster en informática médica === Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación entre los estudios en ciencias básicas y la clínica para mejorar...
Main Author: | |
---|---|
Other Authors: | |
Language: | es |
Published: |
Universidad de Chile
2019
|
Subjects: | |
Online Access: | http://repositorio.uchile.cl/handle/2250/168327 |
id |
ndltd-UCHILE-oai-repositorio.uchile.cl-2250-168327 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
es |
sources |
NDLTD |
topic |
Informática médica Enfermedad de Alzheimer Neoplasias de la mama |
spellingShingle |
Informática médica Enfermedad de Alzheimer Neoplasias de la mama Araneda García, Patricio Miguel Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama |
description |
Grado de magíster en informática médica === Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el
estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación
entre los estudios en ciencias básicas y la clínica para mejorar los diagnósticos y tratamientos de
los pacientes. Accediendo a mayor información del paciente, en particular genómica, se busca
definir de mejor manera el fenotipo de su enfermedad y con ello decidir su mejor tratamiento.
Sin embargo, la gran cantidad y heterogeneidad de los datos disponibles hace complejo el
descubrimiento de información relevante (definir el fenotipo). Para abordar este problema es
necesario desarrollar un sistema que permita integrar los estudios realizados a cada paciente y
asociar sus resultados.
En este trabajo se propone implementar una plataforma (Datagenomed) constituida por un
modelo de base de datos “híbrida” basado en PostgreSQL y almacenamiento JSON (NoSQL) y
un conjunto de herramientas computacionales que permitan asociar la información clínica del
paciente con la información genómica. Un software de gestión de datos que registre tanto
información clínica (diagnóstica) como los resultados de secuenciación de ADN y que permita la
búsqueda de información pertinente en repositorios biológicos, añadiendo reportes estadísticos
basados en el software R.
La plataforma se adaptó a dos casos de estudio: i) información sobre Alzheimer basado en el
proyecto Fondecyt No. 1140423 “Fisiopatología de la Apatía en la Enfermedad de Alzheimer: Un
Estudio Experimental de Neuropsicología y Neuroimagen” (CA) liderado por la Dra. Andrea
Slachevsky y ii) información de cáncer de mama del proyecto Fondef N. D11I1029
“Incorporación de la Secuenciación de Última Generación en el Cuidado de los Pacientes con
Cáncer” (CC) proporcionado por la Dra. Katherine Marcelain.
Los datos clínicos provinieron de recolección de fichas clínicas hospitalarias, junto a datos
demográficos (solo para CA). Los datos genómicos se obtuvieron del análisis de archivos Fastq de muestras de sangre y/o tejido procesados mediante next-generation DNA sequencing (NGS)
(CC).
Para adaptarse a la naturaleza disímil de los datos registrados, la información se almacenó en un
nuevo sistema de bases de datos híbrido, permitiendo tanto datos clínicos estructurados como
datos genómicos de tipo documental.
La implementación resultante cuenta con un sistema de filtrado y búsquedas de términos en bases
bibliográficas e información genómica en bases de datos biológicas; Pubmed, RefSeqGene,
MedGen, dbSNP, Clinvar, Cosmic, Gene pudiendo agregarse otros recursos según necesidad.
El objetivo de esta tesis es diseñar e implementar un conjunto de herramientas de software para
permitir procesos de extracción, transformación y carga (ETL) de información sobre las bases de
datos creadas y permitir consultas en línea mediante webservice. Dichos webservice se
construyeron utilizando software open source y las mejores prácticas de diseño de interface,
fuerte prototipado y técnicas de desarrollo xtreme programming.
El fin último es que la información resultante esté disponible remotamente vía una plataforma
que pueda ser consultada utilizando webservice desde cualquier sistema de registro clínico
asociado. Como resultado se construyó una plataforma basada en tecnología web soportado sobre un motor de base de datos PostgreSQL utilizando Knime como herramienta para procesos de ETL. === In recent years translational medicine has emerged as a powerful tool for the study of complex
diseases approach, the fundamental idea is to strengthen the feedback between basic and clinical
studies to improve diagnosis and treatment of patients. Accessing more information on the
patient, particularly genomics, seeks to better define the phenotype of the disease and thus
determine their best treatment.
However, due to the large amount of data and its heterogeneity the discovery of relevant
information becomes complex (defining the phenotype). To address this problem it is necessary
to develop a system that integrate studies and associate the patient outcomes.
In this thesis we propose to implement a platform (DataGenomed) consisting of a database model
and a set of computational tools that allow to associate clinical information with genomic
information of patients. The proposed data management software to record clinical information
(diagnostic) and the results of DNA sequencing and allows the search for relevant information in biological repositories, adding statistical reports based on the software R. The platform will tested two case studies: i) information on Alzheimer disease based on Fondecyt
No. 1140423 project "Apathy Pathophysiology of Alzheimer's Disease: An Experimental Study
of Neuropsychology and neuroimaging" project (CA) led by Dra. Andrea Slachevsky and ii)
breast cancer information Fondef N. D11I1029 project "Incorporating Next Generation
Sequencing Care in cancer Patients" (CC) led by Dra. Katherine Marcelain.
Clinical data collection came from hospital medical records, along with demographic data (CA
only). Genomic data was obtained from analysis files Fastq blood samples and / or tissue
processed using next-generation DNA sequencing (NGS) (CC).
To adapt us to the dissimilar nature of the recorded data, the information was stored in a new
hybrid database system data, allowing both clinical structured data and genomic non structured
document type. The resulting implementation has a filtering system and search terms in bibliographic databases
and genomic information in biological databases; Pubmed, RefSeqGene, MedGen, dbSNP,
Clinvar, Cosmic, Gene and it is posible to add other resources as needed.
The aim of this thesis is to design and implement a set of software tools to allow extraction,
transformation and loading (ETL) of information on databases created and allow online
consultations via webservice. These best practices webservice interface design, prototyping and
strong development techniques xtreme programming will be built using open source software.
The final goal is that the resulting information is available remotely via a platform that can be
accessed from any system using webservice and associated clinical record. |
author2 |
Assar Cuevas, Rodrigo |
author_facet |
Assar Cuevas, Rodrigo Araneda García, Patricio Miguel |
author |
Araneda García, Patricio Miguel |
author_sort |
Araneda García, Patricio Miguel |
title |
Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama |
title_short |
Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama |
title_full |
Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama |
title_fullStr |
Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama |
title_full_unstemmed |
Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama |
title_sort |
diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en alzheimer y cáncer de mama |
publisher |
Universidad de Chile |
publishDate |
2019 |
url |
http://repositorio.uchile.cl/handle/2250/168327 |
work_keys_str_mv |
AT aranedagarciapatriciomiguel disenoymodelopreliminardeunaplataformadeintegraciondedatosclinicosygenomicosaplicacionesenalzheimerycancerdemama |
_version_ |
1719295069411868672 |
spelling |
ndltd-UCHILE-oai-repositorio.uchile.cl-2250-1683272019-11-22T09:15:51Z Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama Araneda García, Patricio Miguel Assar Cuevas, Rodrigo Universidad de Chile Facultad de Medicina Escuela de Postgrado Informática médica Enfermedad de Alzheimer Neoplasias de la mama Grado de magíster en informática médica Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación entre los estudios en ciencias básicas y la clínica para mejorar los diagnósticos y tratamientos de los pacientes. Accediendo a mayor información del paciente, en particular genómica, se busca definir de mejor manera el fenotipo de su enfermedad y con ello decidir su mejor tratamiento. Sin embargo, la gran cantidad y heterogeneidad de los datos disponibles hace complejo el descubrimiento de información relevante (definir el fenotipo). Para abordar este problema es necesario desarrollar un sistema que permita integrar los estudios realizados a cada paciente y asociar sus resultados. En este trabajo se propone implementar una plataforma (Datagenomed) constituida por un modelo de base de datos “híbrida” basado en PostgreSQL y almacenamiento JSON (NoSQL) y un conjunto de herramientas computacionales que permitan asociar la información clínica del paciente con la información genómica. Un software de gestión de datos que registre tanto información clínica (diagnóstica) como los resultados de secuenciación de ADN y que permita la búsqueda de información pertinente en repositorios biológicos, añadiendo reportes estadísticos basados en el software R. La plataforma se adaptó a dos casos de estudio: i) información sobre Alzheimer basado en el proyecto Fondecyt No. 1140423 “Fisiopatología de la Apatía en la Enfermedad de Alzheimer: Un Estudio Experimental de Neuropsicología y Neuroimagen” (CA) liderado por la Dra. Andrea Slachevsky y ii) información de cáncer de mama del proyecto Fondef N. D11I1029 “Incorporación de la Secuenciación de Última Generación en el Cuidado de los Pacientes con Cáncer” (CC) proporcionado por la Dra. Katherine Marcelain. Los datos clínicos provinieron de recolección de fichas clínicas hospitalarias, junto a datos demográficos (solo para CA). Los datos genómicos se obtuvieron del análisis de archivos Fastq de muestras de sangre y/o tejido procesados mediante next-generation DNA sequencing (NGS) (CC). Para adaptarse a la naturaleza disímil de los datos registrados, la información se almacenó en un nuevo sistema de bases de datos híbrido, permitiendo tanto datos clínicos estructurados como datos genómicos de tipo documental. La implementación resultante cuenta con un sistema de filtrado y búsquedas de términos en bases bibliográficas e información genómica en bases de datos biológicas; Pubmed, RefSeqGene, MedGen, dbSNP, Clinvar, Cosmic, Gene pudiendo agregarse otros recursos según necesidad. El objetivo de esta tesis es diseñar e implementar un conjunto de herramientas de software para permitir procesos de extracción, transformación y carga (ETL) de información sobre las bases de datos creadas y permitir consultas en línea mediante webservice. Dichos webservice se construyeron utilizando software open source y las mejores prácticas de diseño de interface, fuerte prototipado y técnicas de desarrollo xtreme programming. El fin último es que la información resultante esté disponible remotamente vía una plataforma que pueda ser consultada utilizando webservice desde cualquier sistema de registro clínico asociado. Como resultado se construyó una plataforma basada en tecnología web soportado sobre un motor de base de datos PostgreSQL utilizando Knime como herramienta para procesos de ETL. In recent years translational medicine has emerged as a powerful tool for the study of complex diseases approach, the fundamental idea is to strengthen the feedback between basic and clinical studies to improve diagnosis and treatment of patients. Accessing more information on the patient, particularly genomics, seeks to better define the phenotype of the disease and thus determine their best treatment. However, due to the large amount of data and its heterogeneity the discovery of relevant information becomes complex (defining the phenotype). To address this problem it is necessary to develop a system that integrate studies and associate the patient outcomes. In this thesis we propose to implement a platform (DataGenomed) consisting of a database model and a set of computational tools that allow to associate clinical information with genomic information of patients. The proposed data management software to record clinical information (diagnostic) and the results of DNA sequencing and allows the search for relevant information in biological repositories, adding statistical reports based on the software R. The platform will tested two case studies: i) information on Alzheimer disease based on Fondecyt No. 1140423 project "Apathy Pathophysiology of Alzheimer's Disease: An Experimental Study of Neuropsychology and neuroimaging" project (CA) led by Dra. Andrea Slachevsky and ii) breast cancer information Fondef N. D11I1029 project "Incorporating Next Generation Sequencing Care in cancer Patients" (CC) led by Dra. Katherine Marcelain. Clinical data collection came from hospital medical records, along with demographic data (CA only). Genomic data was obtained from analysis files Fastq blood samples and / or tissue processed using next-generation DNA sequencing (NGS) (CC). To adapt us to the dissimilar nature of the recorded data, the information was stored in a new hybrid database system data, allowing both clinical structured data and genomic non structured document type. The resulting implementation has a filtering system and search terms in bibliographic databases and genomic information in biological databases; Pubmed, RefSeqGene, MedGen, dbSNP, Clinvar, Cosmic, Gene and it is posible to add other resources as needed. The aim of this thesis is to design and implement a set of software tools to allow extraction, transformation and loading (ETL) of information on databases created and allow online consultations via webservice. These best practices webservice interface design, prototyping and strong development techniques xtreme programming will be built using open source software. The final goal is that the resulting information is available remotely via a platform that can be accessed from any system using webservice and associated clinical record. 2019-04-29T16:01:46Z 2019-04-29T16:01:46Z 2016 Tesis http://repositorio.uchile.cl/handle/2250/168327 es Attribution-NonCommercial-NoDerivs 3.0 Chile http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ Universidad de Chile |