Summary: | The expression of genetic information, in all organisms, might be characterized as in a constant state of flux with only a fraction of the gene within a genome being expressed at any given time. The genes’ expression pattern reflects the response of cells to stimuli that control growth, development and signal environmental changes. Understanding genes’ expression at the level of transcription and/or other stages of gene regulation at the mRNA level (half life of mRNA, RNA production from primary transcript) might reveal insights into the genes expression mechanisms that control these changes.
With the DNA microarray technology researchers are now able to determine, in a single experiment, the gene expression profiles of hundreds to tens of thousands of genes in tissue, tumors, cells or biological fluids. Accordingly, and since the patterns of gene expression are strongly functionally correlated, microarrays might provide unprecedented information both on basic research (e.g. expression profiles of different tissues) and on applied research (e.g. human diseases, drug and hormone action etc).
While the simultaneous measurement of thousands of gene expression levels potentially serves as source of profound knowledge, genes quantification (i.e. extraction of the genes expression levels) is confounded by various types of noise originating both from the microarray experimental procedure (e.g. sample preparation) and the probabilistic characteristics of the microarray detection process (e.g. scanning errors). The “noisy” nature of the measured gene expression levels obscures some of the important characteristics of the biological processes of interest. The latter, as a direct effect, renders the extraction of biological meaningful conclusions through microarray experiments difficult and affects the accuracy of the biological inference. Thus, as a major challenge in DNA microarray analysis, and especially for the accurate extraction of genes expression levels, might be considered the effective separation of “true” gene expression values from noise.
Noise reduction is an essential process, which has to be incorporated into the microarray image analysis pipeline in order to minimize the “errors” that propagate throughout the microarray analysis pipeline and, consequently, affect the extracted gene expression levels. A possible solution, as proposed in previous studies, for addressing microarray image noise is image enhancement. Results of these studies have indicated a superior quality of the enhanced images, without however examining whether enhancement leads to more accurate spot segmentation or reduces the variability of the extracted gene expression levels.
As foresaid, noise also complicates the extraction of meaningful biological conclusions. While more advanced methods have been introduced [28-32] that attempt to prevent the noisy set of genes from being grouped, there is a lack of consensus among experts on the selection of a single method for determining meaningful clusters of genes. The latter, directly affects the biological inference, since different number of clusters are produced when different clustering techniques or either different parameters in the clustering algorithms are utilized.
Thus, it turns up that it is not only important to assess the performance of each analysis stage independently (i.e. whether the techniques employed in the microarray analysis pipeline provide accurate extracted gene expression levels or the clustering techniques group biologically related genes) but it is also necessary to ensure an acceptable performance of all steps, as a whole, in terms of biologically meaningful information.
This thesis has been carried out towards the development of a complete microarray image processing and analysis framework in order to improve the extraction and, consequently, the quantification of gene expression levels on spotted complementary DNA (cDNA) microarray images. The aims of the present thesis are: a) to model and address the effects of cDNA microarray image noise in such a way that it will increase the accuracy of the extracted gene expression levels, b) to investigate the impact of noise and facilitate genes expression data analysis in order to allow biologists to develop an integrated understanding of the process being studied, c) to introduce a semi-supervised biologically informed criterion for the detection of meaningful biological clusters of genes that answer specific biological questions, d) to investigate the performance and the impact of various state-of-art and novel cDNA microarray image segmentation techniques in the quantification of genes expression levels
For exploring all of these aspects, a complete and robust framework of microarray image processing and analysis techniques was designed, built and implemented. The framework incorporated in the microarray analysis pipeline a novel combination of image processing and analysis techniques originating from the comprehensive quantitative investigation of the impact of noise on spot segmentation, intensity extraction and data mining. Additionally, novel formulations of known image segmentation techniques have been introduced, implemented and evaluated in the task of microarray image segmentation. The usefulness of the proposed methods has been validated experimentally on both simulated and real cDNA microarray images. === Η έκφραση της γενετικής πληροφορίας, σε όλους τους οργανισμούς, χαρακτηρίζεται από μια σταθερή κατάσταση «ροής» στην οποία όμως μόνο ένα μέρος του γονιδίου μέσα στο γονιδίωμα (genome) εκφράζεται ανά χρονική στιγμή. Το γονιδιακό μοτίβο έκφρασης (gene expression pattern or gene expression profile) θα μπορούσαμε να πούμε ότι αντανακλά την αντίδραση των κυττάρων στα διάφορα εξωτερικά ερεθίσματα. Για να μπορέσουν να απαντηθούν ερωτήματα σχετικά με τους μηχανισμούς που επηρεάζουν και μεταβάλλουν τη γονιδιακή έκφραση ανάλογα με το εξωτερικό ερέθισμα είναι απαραίτητη η μελέτη της γονιδιακής έκφρασης σε μεταγραφικό επίπεδο (transcription level) ή/και άλλα στάδια (παράγοντες) που ρυθμίζουν τη γονιδιακή έκφραση (gene regulation) σε επίπεδο mRNA.
Με τη χρήση της τεχνολογίας των μικροσυστοιχιών, οι ερευνητές έχουν πλέον τη δυνατότητα να μελετήσουν ταυτόχρονα την γονιδιακή έκφραση δεκάδων ή και εκατοντάδων χιλιάδων γονιδίων σε ιστούς, κύτταρα όγκους κλπ με τη χρήση ενός και μόνο πειράματος. Κατά συνέπεια, και από τη στιγμή που τα γονιδιακά μοτίβα έκφρασης συσχετίζονται έντονα λειτουργικά (functionally correlated), η τεχνολογία των μικροσυστοιχιών παρέχει ανεκτίμητης αξίας πληροφορίες που μπορούν να δώσουν ώθηση τόσο στην ανάπτυξη της βασικής έρευνας π.χ. μελέτη των γονιδιακών προφίλ έκφρασης διαφορετικών ιστών όσο και στην ανάπτυξη της εφαρμοσμένης έρευνας π.χ. μελέτη ασθενειών, δράση φαρμάκων και ορμονών κλπ.
Παρά τη δυνατότητα που παρέχει η τεχνολογία των μικροσυστοιχιών για την ταυτόχρονη μέτρηση των επιπέδων έκφρασης χιλιάδων γονιδίων, η ποσοτικοποίηση της γονιδιακής έκφρασης (δηλ. η εξαγωγή των επιπέδων έκφρασης των γονιδίων), επηρεάζεται από τους διάφορους τύπους θορύβου που υπεισέρχονται τόσο κατά την πειραματική διαδικασία κατασκευής των μικροσυστοιχιών (π.χ. προετοιμασία δειγμάτων) όσο και από τα πιθανοκρατικά χαρακτηριστικά που διέπουν τη διαδικασία ανίχνευσης (microarray scanning procedure) των μικροσυστοιχιών (π.χ. λάθη ανίχνευσης). Η «θορυβώδης» φύση των γονιδίων και κατά συνέπεια των μετρούμενων γονιδιακών εκφράσεων «κρύβει» (obscure) μερικά από τα πιο σημαντικά χαρακτηριστικά των βιολογικών διαδικασιών ενδιαφέροντος και καθιστά δύσκολη την εξαγωγή χρήσιμων βιολογικών συμπερασμάτων.
Από τα παραπάνω διαφαίνεται ότι η μείωση του θορύβου είναι μια πολύ σημαντική διαδικασία η οποία θα πρέπει να ενσωματωθεί στην αλγοριθμική μεθοδολογία που μέχρι στιγμής χρησιμοποιείται για την εξαγωγή των γονιδιακών εκφράσεων από τις εικόνες μικροσυστοιχιών. Με αυτό τον τρόπο θα ελαχιστοποιηθούν τα πιθανά «λάθη» τα οποία μεταφέρονται (propagate) κατά τη διαδικασία εξαγωγής των εντάσεων (μέσω της χρησιμοποιούμενης αλγοριθμικής μεθοδολογίας) και τελικά επηρεάζουν την «ακριβή» εξαγωγή των γονιδιακών εκφράσεων.
‘Ως πιθανή λύση για την αντιμετώπιση του θορύβου στις εικόνες μικροσυστοιχιών, έχει προταθεί στη διεθνή βιβλιογραφία η χρήση τεχνικών αναβάθμισης εικόνας. Τα αποτελέσματα αυτών των επιστημονικών εργασιών συμπεραίνουν ότι με τη χρήση τεχνικών αναβάθμισης η ποιότητα των επεξεργασμένων εικόνων είναι σαφώς καλύτερη. Ωστόσο, καμία από αυτές τις εργασίες δεν μελετάει εάν οι τεχνικές αναβάθμισης οδηγούν στον ακριβέστερο προσδιορισμό των παρυφών των κουκίδων (spot) από τις οποίες εξάγονται οι γονιδιακές εκφράσεις ή εάν βοηθάνε στη μείωση της μεταβλητότητας (variability) των εξαγόμενων γονιδιακών εκφράσεων.
Επιπρόσθετα, όπως έχει ήδη προαναφερθεί, ο θόρυβος παρεμποδίζει την εξαγωγή χρήσιμων βιολογικών συμπερασμάτων. Παρά το μεγάλο πλήθος εξελιγμένων μεθόδων που έχουν προταθεί στη διεθνή βιβλιογραφία για την αποτροπή της ομαδοποίησης γονιδίων που χαρακτηρίζονται ως «θορυβώδη», δεν έχει καθοριστεί ακόμα (από τους ειδικούς) μια ενιαία μέθοδος που να βρίσκει και να ομαδοποιεί γονίδια τα οποία θα παρέχουν βιολογικά χρήσιμες πληροφορίες. Αποτέλεσμα αυτής της «ασυμφωνίας» μεταξύ των ειδικών αποτελεί η εξαγωγή διαφορετικών βιολογικών συμπερασμάτων ανάλογα α) με τον αριθμό των δημιουργούμενων γονιδιακών ομάδων (που εξαρτάται άμεσα από τη διαφορετική μέθοδο ομαδοποίησης (clustering)) και β) με τις διαφοροποιήσεις που μπορεί να έχουμε στις παραμέτρους των διαφόρων μεθόδων ομαδοποίησης.
H παρούσα διατριβή στοχεύει στη δημιουργία ενός ολοκληρωμένου πλαισίου για την επεξεργασία και ανάλυση εικόνων μικροσυστοιχιών με σκοπό την βελτιστοποίηση της εξαγωγής και κατά συνέπεια της ποσοτικοποίησης των γονιδιακών εντάσεων από εικόνες μικροσυστοιχιών κουκίδων (spotted cDNA microarray images). Οι στόχοι της παρούσας διατριβής συνοψίζονται ως εξής: α) μοντελοποίηση και περιορισμός των επιδράσεων του θορύβου σε εικόνες μικροσυστοιχιών κουκίδων κατά τέτοιο τρόπο ώστε να αυξηθεί η ακρίβεια των εξαγόμενων γονιδιακών εκφράσεων, β) μελέτη της επίδρασης του θορύβου και βελτιστοποίηση των μεθόδων ανάλυσης των γονιδιακών εκφράσεων με σκοπό τη διευκόλυνση των βιολόγων στην εξαγωγής βιολογικών συμπερασμάτων και την καλύτερη κατανόηση της βιολογικής διεργασίας που μελετάται, γ) εισαγωγή ενός ημιεποπτευόμενου (semi-supervised) κριτηρίου που στηριζόμενο σε βιολογικές πληροφορίες θα αποσκοπεί στην ανεύρεση βιολογικά σημαντικών ομάδων γονιδίων τα οποία ταυτόχρονα θα απαντούν σε συγκεκριμένα βιολογικά ερωτήματα ,δ) μελέτη της επίδρασης και της απόδοσης διαφόρων τεχνικών κατάτμησης εικόνων μικροσυστοιχιών κουκίδων, τόσο ανωτάτου επιπέδου (state-of-art) όσο και νέων, στην ποσοτικοποίηση γονιδιακών εκφράσεων.
Για την πραγματοποίηση των παραπάνω στόχων σχεδιάστηκε και κατασκευάστηκε μια πλήρως δομημένη μεθοδολογία (a complete and robust framework) που περιελάμβανε αλγοριθμους επεξεργασίας και ανάλυσης εικόνας κουκίδων μικροσυστοιχιών Η προτεινόμενη μεθοδολογία ενσωμάτωσε στην ήδη υπάρχουσα αλγοριθμική μεθοδολογία (microarray analysis pipeline) έναν πρωτότυπο συνδυασμό τεχνικών επεξεργασίας και ανάλυσης εικόνας βασισμένο στην εις βάθος ποσοτική έρευνα της επίδρασης του θορύβου στην κατάτμηση κουκίδων (spot segmentation), στην εξαγωγή εντάσεων και στην εξόρυξη δεδομένων (data mining). Επιπρόσθετα, κατά την παρούσα διατριβή προτάθηκαν, κατασκευάστηκαν και αξιολογήθηκαν νέες τεχνικές κατάτμησης εικόνας από μικροσυστοιχές κουκίδων. Η χρησιμότητα των προτεινόμενων μεθοδολογιών αξιολογήθηκε τόσο σε εικονικές (simulated) όσο και σε πραγματικές εικόνες μικροσυστοιχιών κουκίδων.
|