Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods

De nombreuses recherches ont constaté l'importance des molécules d'ARN, car ils jouent un rôle vital dans beaucoup de procédures moléculaires. Et il est accepté généralement que les structures des molécules d'ARN sont la clé de la découverte de leurs fonctions.Au cours de l'enquê...

Full description

Bibliographic Details
Main Author: Zeng, Cong
Other Authors: Paris 11
Language:en
Published: 2015
Subjects:
ARN
RNA
Online Access:http://www.theses.fr/2015PA112127/document
id ndltd-theses.fr-2015PA112127
record_format oai_dc
collection NDLTD
language en
sources NDLTD
topic ARN
Structure secondaire
Pseudo-noeuds
Classification
Prédiction de structure
Comparaison
Benchmark
RNA
Secondary strucure
Pseudoknot
Classification
Structure prediction
Comparison
Benchmark

spellingShingle ARN
Structure secondaire
Pseudo-noeuds
Classification
Prédiction de structure
Comparaison
Benchmark
RNA
Secondary strucure
Pseudoknot
Classification
Structure prediction
Comparison
Benchmark

Zeng, Cong
Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods
description De nombreuses recherches ont constaté l'importance des molécules d'ARN, car ils jouent un rôle vital dans beaucoup de procédures moléculaires. Et il est accepté généralement que les structures des molécules d'ARN sont la clé de la découverte de leurs fonctions.Au cours de l'enquête de structures d'ARN, les chercheurs dépendent des méthodes bioinformatiques de plus en plus. Beaucoup de méthodes in silico de prédiction des structures secondaires d'ARN ont émergé dans cette grosse vague, y compris certains qui sont capables de prédire pseudonoeuds, un type particulier de structures secondaires d'ARN.Le but de ce travail est d'essayer de comparer les méthodes de l'état de l'art pour prédiction de pseudonoeud, et offrir aux collègues des idées sur le choix d’une méthode pratique pour la seule séquence donnée. En fait, beaucoup d'efforts ont été fait dans la prédiction des structures secondaires d'ARN parmi lesquelles le pseudonoeud les dernières décennies, contribuant à de nombreux programmes dans ce domaine. Certaines enjeux sont soulevées conséquemment. Comment est-elle la performance de chaque méthode, en particulier sur une classe de séquences d'ARN particulière? Quels sont leurs pour et contre? Que pout-on profiter des méthodes contemporaines si on veut développer de nouvelles? Cette thèse a la confiance dans l'enquête sur les réponses.Cette thèse porte sur très nombreuses comparaisons de la performance de prédire pseudonoeuds d'ARN par les méthodes disponibles. Une partie principale se concentre sur la prédiction de signaux de déphasage par deux méthodes principalement. La deuxième partie principale se concentre sur la prédiction de pseudonoeuds qui participent à des activités moléculaires beaucoup plus générale.Dans le détail, la deuxième partie du travail comprend 414 pseudonoeuds de Pseudobase et de la Protein Data Bank, ainsi que 15 méthodes dont 3 méthodes exactes et 12 heuristiques. Plus précisément, trois grandes catégories de mesures complexes sont introduites, qui divisent encore les 414 pseudonoeuds en une série de sous-classes respectivement.Les comparaisons se passent par comparer les prédictions de chaque méthode basée sur l'ensemble des 414 pseudonœuds, et les sous-ensembles qui sont classés par les deux mesures complexes et la longueur, le type de l'ARN et de l'organisme des pseudonœuds.Le résultat montre que les pseudo-noeuds portent une complexité relativement faible dans toutes les mesures. Et la performance des méthodes modernes varie de sous-classe à l’autre, mais diminue constamment lors que la complexité de pseudonoeuds augmente. Plus généralement, les méthodes heuristiques sont supérieurs globalement à celles exacts. Et les résultats de l'évaluation sensibles sont dépendants fortement de la qualité de structure de référence et le système d'évaluation. Enfin, cette partie du travail est fourni comme une référence en ligne pour la communauté bioinformatique. === Lots of researches convey the importance of the RNA molecules, as they play vital roles in many molecular procedures. And it is commonly believed that the structures of the RNA molecules hold the key to the discovery of their functions.During the investigation of RNA structures, the researchers are dependent on the bioinformatical methods increasingly. Many in silico methods of predicting RNA secondary structures have emerged in this big wave, including some ones which are capable of predicting pseudoknots, a particular type of RNA secondary structures.The purpose of this dissertation is to try to compare the state-of-the-art methods predicting pseudoknots, and offer the colleagues some insights into how to choose a practical method for the given single sequence. In fact, lots of efforts have been done into the prediction of RNA secondary structures including pseudoknots during the last decades, contributing to many programs in this field. Some challenging questions are raised consequently. How about the performance of each method, especially on a particular class of RNA sequences? What are their advantages and disadvantages? What can we benefit from the contemporary methods if we want to develop new ones? This dissertation holds the confidence in the investigation of the answers.This dissertation carries out quite many comparisons of the performance of predicting RNA pseudoknots by the available methods. One main part focuses on the prediction of frameshifting signals by two methods principally. The second main part focuses on the prediction of pseudoknots which participate in much more general molecular activities.In detail, the second part of work includes 414 pseudoknots, from both the Pseudobase and the Protein Data Bank, and 15 methods including 3 exact methods and 12 heuristic ones. Specifically, three main categories of complexity measurements are introduced, which further divide the 414 pseudoknots into a series of subclasses respectively. The comparisons are carried out by comparing the predictions of each method based on the entire 414 pseudoknots, and the subsets which are classified by both the complexity measurements and the length, RNA type and organism of the pseudoknots.The result shows that the pseudoknots in nature hold a relatively low complexity in all measurements. And the performance of contemporary methods varies from subclass to subclass, but decreases consistently as the complexity of pseudoknots increases. More generally, the heuristic methods globally outperform the exact ones. And the susceptible assessment results are dependent strongly on the quality of the reference structures and the evaluation system. Last but not least, this part of work is provided as an on-line benchmark for the bioinformatics community.
author2 Paris 11
author_facet Paris 11
Zeng, Cong
author Zeng, Cong
author_sort Zeng, Cong
title Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods
title_short Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods
title_full Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods
title_fullStr Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods
title_full_unstemmed Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods
title_sort classification of rna pseudoknots and comparison of structure prediction methods
publishDate 2015
url http://www.theses.fr/2015PA112127/document
work_keys_str_mv AT zengcong classificationofrnapseudoknotsandcomparisonofstructurepredictionmethods
AT zengcong classificationdepseudonœudsdarnetcomparaisondemethodesdepredictiondestructure
_version_ 1718490609206951936
spelling ndltd-theses.fr-2015PA1121272017-07-05T04:35:02Z Classification of RNA Pseudoknots and Comparison of Structure Prediction Methods Classification de Pseudo-nœuds d'ARN et Comparaison de Méthodes de Prédiction de Structure ARN Structure secondaire Pseudo-noeuds Classification Prédiction de structure Comparaison Benchmark RNA Secondary strucure Pseudoknot Classification Structure prediction Comparison Benchmark De nombreuses recherches ont constaté l'importance des molécules d'ARN, car ils jouent un rôle vital dans beaucoup de procédures moléculaires. Et il est accepté généralement que les structures des molécules d'ARN sont la clé de la découverte de leurs fonctions.Au cours de l'enquête de structures d'ARN, les chercheurs dépendent des méthodes bioinformatiques de plus en plus. Beaucoup de méthodes in silico de prédiction des structures secondaires d'ARN ont émergé dans cette grosse vague, y compris certains qui sont capables de prédire pseudonoeuds, un type particulier de structures secondaires d'ARN.Le but de ce travail est d'essayer de comparer les méthodes de l'état de l'art pour prédiction de pseudonoeud, et offrir aux collègues des idées sur le choix d’une méthode pratique pour la seule séquence donnée. En fait, beaucoup d'efforts ont été fait dans la prédiction des structures secondaires d'ARN parmi lesquelles le pseudonoeud les dernières décennies, contribuant à de nombreux programmes dans ce domaine. Certaines enjeux sont soulevées conséquemment. Comment est-elle la performance de chaque méthode, en particulier sur une classe de séquences d'ARN particulière? Quels sont leurs pour et contre? Que pout-on profiter des méthodes contemporaines si on veut développer de nouvelles? Cette thèse a la confiance dans l'enquête sur les réponses.Cette thèse porte sur très nombreuses comparaisons de la performance de prédire pseudonoeuds d'ARN par les méthodes disponibles. Une partie principale se concentre sur la prédiction de signaux de déphasage par deux méthodes principalement. La deuxième partie principale se concentre sur la prédiction de pseudonoeuds qui participent à des activités moléculaires beaucoup plus générale.Dans le détail, la deuxième partie du travail comprend 414 pseudonoeuds de Pseudobase et de la Protein Data Bank, ainsi que 15 méthodes dont 3 méthodes exactes et 12 heuristiques. Plus précisément, trois grandes catégories de mesures complexes sont introduites, qui divisent encore les 414 pseudonoeuds en une série de sous-classes respectivement.Les comparaisons se passent par comparer les prédictions de chaque méthode basée sur l'ensemble des 414 pseudonœuds, et les sous-ensembles qui sont classés par les deux mesures complexes et la longueur, le type de l'ARN et de l'organisme des pseudonœuds.Le résultat montre que les pseudo-noeuds portent une complexité relativement faible dans toutes les mesures. Et la performance des méthodes modernes varie de sous-classe à l’autre, mais diminue constamment lors que la complexité de pseudonoeuds augmente. Plus généralement, les méthodes heuristiques sont supérieurs globalement à celles exacts. Et les résultats de l'évaluation sensibles sont dépendants fortement de la qualité de structure de référence et le système d'évaluation. Enfin, cette partie du travail est fourni comme une référence en ligne pour la communauté bioinformatique. Lots of researches convey the importance of the RNA molecules, as they play vital roles in many molecular procedures. And it is commonly believed that the structures of the RNA molecules hold the key to the discovery of their functions.During the investigation of RNA structures, the researchers are dependent on the bioinformatical methods increasingly. Many in silico methods of predicting RNA secondary structures have emerged in this big wave, including some ones which are capable of predicting pseudoknots, a particular type of RNA secondary structures.The purpose of this dissertation is to try to compare the state-of-the-art methods predicting pseudoknots, and offer the colleagues some insights into how to choose a practical method for the given single sequence. In fact, lots of efforts have been done into the prediction of RNA secondary structures including pseudoknots during the last decades, contributing to many programs in this field. Some challenging questions are raised consequently. How about the performance of each method, especially on a particular class of RNA sequences? What are their advantages and disadvantages? What can we benefit from the contemporary methods if we want to develop new ones? This dissertation holds the confidence in the investigation of the answers.This dissertation carries out quite many comparisons of the performance of predicting RNA pseudoknots by the available methods. One main part focuses on the prediction of frameshifting signals by two methods principally. The second main part focuses on the prediction of pseudoknots which participate in much more general molecular activities.In detail, the second part of work includes 414 pseudoknots, from both the Pseudobase and the Protein Data Bank, and 15 methods including 3 exact methods and 12 heuristic ones. Specifically, three main categories of complexity measurements are introduced, which further divide the 414 pseudoknots into a series of subclasses respectively. The comparisons are carried out by comparing the predictions of each method based on the entire 414 pseudoknots, and the subsets which are classified by both the complexity measurements and the length, RNA type and organism of the pseudoknots.The result shows that the pseudoknots in nature hold a relatively low complexity in all measurements. And the performance of contemporary methods varies from subclass to subclass, but decreases consistently as the complexity of pseudoknots increases. More generally, the heuristic methods globally outperform the exact ones. And the susceptible assessment results are dependent strongly on the quality of the reference structures and the evaluation system. Last but not least, this part of work is provided as an on-line benchmark for the bioinformatics community. Electronic Thesis or Dissertation Text Image en http://www.theses.fr/2015PA112127/document Zeng, Cong 2015-07-03 Paris 11 Denise, Alain