Development of bioinformatics resources for the integrative analysis of Next Generation omics data

The advances in high-throughput sequencing techniques and the technological development accompanying them have favoured the development and popularisation of a new range of genomic research disciplines, collectively known as the omics. These technologies are capable of simultaneously measuring thous...

Full description

Bibliographic Details
Main Author: Hernández de Diego, Rafael
Other Authors: Conesa Cegarra, Ana
Format: Doctoral Thesis
Language:English
Published: Universitat Politècnica de València 2017
Subjects:
Online Access:http://hdl.handle.net/10251/91227
Description
Summary:The advances in high-throughput sequencing techniques and the technological development accompanying them have favoured the development and popularisation of a new range of genomic research disciplines, collectively known as the omics. These technologies are capable of simultaneously measuring thousands of molecules which are essential for life, including DNA, RNA, proteins, and metabolites. Historically, classical genomic research has followed a reductionist approach by studying the structure, regulation, and function of these biological units independently. However, despite being a powerful analytical tool, the reductionist method cannot explain many of the biological phenomena that take place in living systems. This is because these biological events are not represented by the sum of their components, rather, only the interacting dynamics of the different omics elements can explain their complexity. In recent years Systems Biology has established itself as a multidisciplinary area of research which tries to model the dynamic behaviour of biological systems by holistically studying the interactions between the different omics disciplines; it combines simultaneous measurements of different types of molecules and integrates multiple sources of information in order to identify changing components in a coordinated way and under controlled study conditions. Thus, Systems Biology is an interdisciplinary area that requires biologists, mathematicians, biochemists, and other researchers to work closely together, and in which computer sciences plays a fundamental role because of the volume and complexity of the data handled. This thesis addresses the problem of data management, integration, and analysis in multi-omics studies. More specifically, this research focused on two of the most characteristic computational challenges in Systems Biology: the development of integrated databases and the problem of integrative visualisation. Therefore, the first part of this work was devoted to designing and creating a bioinformatics resource for managing multi-omics experiments. The resulting platform, known as STATegra EMS, offers a complete set of tools that facilitate the storage and organisation of the large datasets generated during omics experiments, and also provides tools for data annotation in the later stages of processing and analysis of the information. The development of this platform required overcoming problems created by the heterogeneity, volume, and high variability of the data. Thus, as part of the solution to these problems, detailed metadata can be recorded within STATegra EMS, allowing dataset discrimination and successful data integration. To aid this process, the platform also offers a collaborative and easy-to-use web interface that combines modern web technologies and well-known community standards to represent the different components of the integrated experiments. The second part of this thesis examines the current situation and challenges in integrative data visualisation in multi-omic experiments, and presents the PaintOmics 3 web tool which was developed to address these issues. Since the capacity of the human brain for visual processing is highly evolved, integrative visualisation combined with data analysis techniques is probably one of the most powerful tools for interpreting and validating results in Systems Biology. PaintOmics 3 provides a comprehensive framework for performing biological function enrichment analyses in experiments with multiple conditions and data types; it combines powerful tools for integrative data visualisation on KEGG molecular-interaction diagrams, biological-process interaction-networks, and statistical analyses. Moreover, unlike similar tools, PaintOmics 3 is interactive and easy to use, and stands out for its flexibility and the variety of omics data types it accepts, which include epigenomics data based on genomic regions, proteomics data, and miRNA-study data. === Los avances en las técnicas de secuenciación y el abaratamiento tecnológico han favorecido el desarrollo y la popularización de una nueva gama de disciplinas de investigación genómica, conocidas como "ómicas". Estas tecnologías son capaces de realizar mediciones simultáneas de miles de moléculas esenciales para la vida, tales como el ADN, el ARN, las proteínas y los metabolitos. Históricamente, la investigación genómica clásica ha seguido un enfoque reduccionista al estudiar la estructura, regulación y función de estas moléculas de manera independiente. Sin embargo, el método reduccionista es incapaz de explicar muchos de los fenómenos biológicos que tienen lugar en un sistema vivo, sugiriendo que la esencia del sistema no puede explicarse simplemente mediante la enumeración de elementos que lo componen, sino que radica en la dinámica de los procesos biológicos que entre ellos acontecen. La Biología de Sistemas se ha establecido en los últimos años como el área de investigación multidisciplinaria que trata de modelar el comportamiento dinámico de los sistemas biológicos a través del estudio holístico de las interacciones entre sus partes, combinando mediciones simultáneas de diferentes tipos de moléculas e integrando múltiples fuentes de información para identificar aquellos componentes que cambian de manera coordinada en las condiciones estudiadas. La BS es un área interdisciplinar que requiere que biólogos, matemáticos, bioquímicos y otros investigadores trabajen en estrecha colaboración, y en la que la informática tiene un papel fundamental dado el volumen y la complejidad de los datos. Esta tesis aborda el problema de la gestión, integración y análisis de los datos en estudios multi-ómicos. Más específicamente, la investigación se ha centrado en dos de los retos computacionales más característicos de la BS: el desarrollo de bases de datos integrativas y el problema de la visualización integrativa. Así, la primera parte de este trabajo se ha dedicado al diseño y creación de un recurso bioinformático para la gestión de experimentos multi-ómicos. La plataforma desarrollada (STATegra EMS) ofrece un conjunto de herramientas que facilitan el almacenamiento y la organización de los grandes conjuntos de datos que son generados durante los experimentos, así como la anotación de las posteriores etapas de procesamiento y análisis de la información. La heterogeneidad, el volumen y la variabilidad de los datos son algunos de los obstáculos que han sido abordados durante el desarrollo del STATegra EMS, con el fin de alcanzar un registro detallado de la meta-información que permita discriminar cada conjunto de datos y lograr así una integración exitosa de la información. Para ello, la plataforma desarrollada ofrece una interfaz web colaborativa y de fácil manejo en la que se combinan modernas tecnologías web y conocidos estándares comunitarios para la representación de los diferentes componentes del experimento. En la segunda parte de esta tesis se discuten la situación actual y las dificultades de la visualización integrativa de datos multi-ómicos, y se presenta la herramienta desarrollada, PaintOmics 3. La visualización integrativa combinada con técnicas de análisis de datos es probablemente una de las herramientas más poderosa para la interpretación y validación de los resultados en BS. PaintOmics 3 proporciona un completo marco de trabajo para realizar análisis de enriquecimiento de funciones biológicas en experimentos con múltiples condiciones y tipos de datos, en el que se combinan potentes herramientas de visualización integrativa sobre diagramas de interacción molecular y redes de reacción KEGG, redes de interacción de procesos biológicos, y estudios estadísticos de los datos. Además, a diferencia de otras herramientas, PaintOmics 3 destaca por su facilidad de uso e interactividad, así como por su flexibilidad y variedad de los datos === Els avenços en les tècniques de seqüenciació d'alt rendiment i l'abaratiment tecnològic posterior han afavorit el desenvolupament i la popularització d'una nova gamma de disciplines d'investigació genòmica, conegudes col¿lectivament com a "òmiques". Aquestes tecnologies permeten realitzar mesuraments simultanis de milers de molècules essencials per a la vida, com ara l'ADN, l'ARN, les proteïnes i els metabòlits. Històricament, la investigació genòmica clàssica ha seguit un enfocament reduccionista a l'hora d'estudiar l'estructura, la regulació i la funció d'aquestes unitats biològiques de manera independent. No obstant això, el mètode reduccionista és incapaç d'explicar molts dels fenòmens biològics que tenen lloc en un sistema viu, suggerint que l'essència del sistema no es pot explicar simplement mitjançant l'enumeració d'elements que el componen, sinó que radica en la dinàmica dels processos biològics que tenen lloc entre ells. La Biologia de Sistemes (BS) ha esdevingut els darrers anys l'àrea d'investigació multidisciplinària que tracta de modelar el comportament dinàmic dels sistemes biològics a través de l'estudi holístic de les interaccions entre les seues parts, combinant mesuraments simultanis de diferents tipus de molècules i integrant múltiples fonts d'informació per a identificar aquells components que canvien de manera coordinada en les condicions objecte d'estudi. La BS és una àrea interdisciplinar que requereix que biòlegs, matemàtics, bioquímics i altres investigadors treballen plegats i en la qual la informàtica té un paper fonamental, atès el volum i la complexitat de les dades emprades. Aquesta tesi aborda el problema de la gestió, la integració i l'anàlisi de les dades en estudis multi-òmics. Més concretament, la investigació s'ha centrat en dos dels reptes computacionals més característics de la BS: el desenvolupament de bases de dades integratives i el problema de la visualització integrativa. Així, la primera part d'aquest treball s'ha dedicat al disseny i creació d'un recurs bioinformàtic per a la gestió d'experiments multi-òmics. La plataforma desenvolupada (STATegra EMS) ofereix un conjunt d'eines que faciliten l'emmagatzematge i l'organització dels grans conjunts de dades que són generats durant aquests experiments, així com l'anotació de les etapes posteriors de processament i anàlisi de la informació. L'heterogeneïtat, el volum i l'alta variabilitat de les dades òmiques són alguns dels obstacles que han estat abordats durant el desenvolupament de l'STATegra EMS, amb la finalitat d'assolir un registre detallat de la meta-informació que permeta discriminar cada conjunt de dades i aconseguir així una integració reeixida de la informació. Per a aconseguir-ho, la plataforma desenvolupada ofereix una interfície web collaborativa i fàcil de fer servir que conjumina modernes tecnologies web i coneguts estàndards comunitaris per a la representació dels diferents components de l'experiment. En la segona part d'aquesta tesi s'hi estudia la situació actual i les dificultats de la visualització integrativa de dades en experiments multi-òmics i s'hi presenta l'eina web desenvolupada: PaintOmics 3. La visualització integrativa en combinació amb tècniques d'anàlisi de dades és probablement una de les eines més poderosa per a la interpretació i validació dels resultats en BS. PaintOmics 3 proporciona un marc complet de treball per a fer anàlisis d'enriquiment de funcions biològiques en experiments amb múltiples condicions i tipus de dades; s'hi combinen eines potents de visualització integrativa de dades sobre diagrames d'interacció molecular i xarxes de reacció KEGG, xarxes d'interacció de processos biològics i estudis estadístics de les dades. A més, a diferència d'altres eines desenvolupades, PaintOmics 3 és molt interactiva i fàcil d'usar, i destaca per la flexibilitat i varietat de dades que accepta, co === Hernández De Diego, R. (2017). Development of bioinformatics resources for the integrative analysis of Next Generation omics data [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/91227 === TESIS