Δομές δεδομένων για τη διαχείριση συμβολοσειρών και για τη διαχείριση πληροφορίας σε δικτυοκεντρικά πληροφοριακά συστήματα

Οι Δομές Δεδομένων είναι ένας από τους σημαντικότερους και ιστορικότερους κλάδους της Επιστήμης των Υπολογιστών, με συνεχή εξέλιξη από τη δεκαετία του εβδομήντα μέχρι σήμερα, παρέχοντας λύσεις σε θεμελιώδη προβλήματα σε ταξινόμηση, οργάνωση, διαχείριση και αναζήτηση πληροφορίας. Παράλληλα, η ανάπ...

Full description

Bibliographic Details
Main Author: Παναγής, Ιωάννης-Δαμαστιανός
Other Authors: Τσακαλίδης, Αθανάσιος
Language:gr
Published: 2009
Subjects:
Online Access:http://nemertes.lis.upatras.gr/jspui/handle/10889/1426
Description
Summary:Οι Δομές Δεδομένων είναι ένας από τους σημαντικότερους και ιστορικότερους κλάδους της Επιστήμης των Υπολογιστών, με συνεχή εξέλιξη από τη δεκαετία του εβδομήντα μέχρι σήμερα, παρέχοντας λύσεις σε θεμελιώδη προβλήματα σε ταξινόμηση, οργάνωση, διαχείριση και αναζήτηση πληροφορίας. Παράλληλα, η ανάπτυξη σύγχρονων κλάδων της Επιστήμης των Υπολογιστών όπως τα Σύγχρονα, Δικτυοκεντρικά Πληροφοριακά Συστήματα και η Βιοπληροφορική, έφερε μαζί της την έκρηξη των δεδομένων. Η ανάγκη αποδοτικής διαχείρισης της παρεχόμενης πληροφορίας καθίσταται έτσι πιο επιτακτική από ποτέ. Στα πλαίσια αυτής της διατριβής αναγνωρίζοντας την ανάγκη για αποδοτική διαχείριση πληροφορίας σε όλα τα επίπεδα, παρουσιάζουμε τη μελέτη και την πρόταση λύσεων σε σύγχρονα προβλήματα στους χώρους: της Διαχείρισης Συμβολοσειρών, της Αναδιοργάνωσης Δικτυακών Τόπων, της Ανακάλυψης Web Services με υποστήριξη χαρακτηριστικών Ποιότητας Υπηρεσίας και της Προσωποποιημένης Ανάκτησης Πληροφορίας στο Διαδίκτυο. Σε αυτή την κατεύθυνση, στον τομέα της Διαχείρισης Συμβολοσειρών, παραθέτουμε αλγορίθμους σε θεμελιώδη προβλήματα στο χώρο της διαχείρισης Σταθμισμένων Ακολουθιών (weighted sequences), όπως ταίριασμα προτύπου, εύρεση επαναληπτικών δομών, και συνεχίζουμε δίνοντας απλοποιητικές αλλά βέλτιστες λύσεις σε προβλήματα περιοδικοτήτων σε συνήθεις συμβολοσειρές, όπως τα προβλήματα εύρεσης όλων των καλυμμάτων μιας συμβολοσειράς, εύρεσης της περιόδου μιας συμβολοσειράς και εύρεσης όλων των φύτρων μιας συμβολοσειράς. Στην Αναδιοργάνωση Δικτυακών Τόπων, παραθέτουμε δυο διαφορετικές μετρικές για την αποτίμηση της αντικειμενικής αξίας των ιστοσελίδων του κάθε ιστοτόπου. Αυτές οι μετρικές παραλλάζουν τις προσβάσεις που δέχεται κάποια ιστοσελίδα με τρόπο που καταδεικνύει την αντικειμενική αξία της ιστοσελίδας. Από πειραματική αποτίμηση των μετρικών, προκύπτει ότι παρέχουν ακριβή πληροφόρηση για τα σημεία του δικτυακού τόπου που χρήζουν αναδιοργάνωσης. Στη συνέχεια δίνουμε μια μέθοδο για τον εντοπισμό σημαντικών τμημάτων μεγαλύτερου μεγέθους στο δικτυακό τόπο και παρουσιάζουμε μια σειρά μεθόδων τόσο σε τεχνικό όσο και θεωρητικό επίπεδο για την αναδιοργάνωση ενός δικτυακού τόπου. Στον τομέα της Ανακάλυψης Web Services, εξετάζουμε την Ανακάλυψη που πληροί περιορισμούς ως προς την παρεχόμενη Ποιότητα Υπηρεσίας. Αρχικά, παρουσιάζονται δυο απλές μέθοδοι για την καταχώριση χαρακτηριστικών ποιότητας υπηρεσίας επεκτείνοντας υπάρχοντα πρότυπα υλοποίησης Web Service. Στη συνέχεια παρουσιάζουμε έναν αλγόριθμο για την ανακάλυψη του σεναρίου εκτέλεσης μιας ακολουθίας (workflow) από συνεχόμενες Web Services, που ελαχιστοποιεί το συνολικό χρόνο εκτέλεσης. Μια σειρά από ευριστικές μεθόδους παρουσιάζονται επίσης, για την υλοποίηση σε πρακτικό επίπεδο του προτεινόμενου αλγορίθμου, οι οποίες αποτιμούνται πειραματικά. Τέλος, στον τομέα της Προσωποποιημένης Ανάκτησης Πληροφορίας στο Διαδίκτυο εξετάζουμε διαφορετικές τεχνικές προσωποποίησης των αποτελεσμάτων των μηχανών αναζήτησης. Η πρώτη τεχνική εφαρμόζει μετα-κατηγοριοποίηση των αποτελεσμάτων και παρουσίασή τους ανάλογα με τη σειρά ενδιαφέροντος του χρήστη ως προς τις κατηγορίες των αποτελεσμάτων. Η δεύτερη τεχνική, βασίζει την προσωποποίηση στην έμμεση απεικόνιση των ενδιαφερόντων χρήστη στις κατηγορίες του Open Directory Project, επεκτείνει μια τεχνική που έχει πρόσφατα προταθεί, τους ιδεατούς κόμβους συσχέτισης κατηγοριών, και χτίζει πολλαπλά επίπεδα ιδεατών κόμβων για την επίτευξη πιο εκλεπτυσμένης προσωποποίησης. Κλείνοντας, παρουσιάζουμε την επέκταση της λογικής της μεθόδου προσωποποίησης για την κατασκευή εστιασμένων συλλεκτών. === Data Structures is one of the most important and most historical sectors of Computer Science, being under continuous development since the seventies. Data Structuring has offered solutions to fundamental problems in sorting, organising, and retrieving information. Meanwhile, the development of the modern fields of Computer Science such as Modern, Net-centric Information Systems and Bioinformatics has signalled a data blow-up. Therefore, the need for efficient information management has become a necessity. In this Thesis, having recognized the need for efficient information management at every level, we present a study and solutions to contemporary problems in the areas of: String Processing, Website Reorganization, Web Service retrieval with support for Quality of Service characteristics, and Personalized Information Retrieval on the Web. In the area of String Processing, we present algorithms for solving fundamental problems in Weighted Sequence Processing, such as Pattern Matching, Repetitive Structures Detection and we continue by giving simplifying yet optimal solutions to periodicity problems in ordinary sequences, namely detecting all covers in a sequence, detecting the period of a sequence and detecting all the seeds of a sequence. In the area of Website Reorganization, we present two different metrics for evaluation of the objective importance of each website's pages. These metrics modify the accesses each page receives in order to present the actual page importance. We have seen from the experimental evaluation of those metrics that they provide accurate information about the areas inside the website in need of reorganization. Furthermore, we present a method to detect larger important parts inside the website and we present methods for website reorganisation both from a technical and from a theoretical viewpoint. In the area of Web Service Retrieval we are coping with retrieval under constraints for the provided Quality of Service (QoS). Firstly, we present two simple methods to register QoS information by extending existing Web Service protocols. Secondly, we present an algorithm to discover the execution scenario for a sequence of contiguous Web Services that minimizes the total execution time. A series of heuristics to implement the above algorithm is also presented. We also present an extensive experimental evaluation of those heuristics. Ultimately, we present different personalization techniques for personalized Web Information Retrieval. The first technique, applies post-categorization of search engine results and presents them according to user preferences with respect to the results' categories. The second technique is based on implicit mapping of user preferences to the categories of the Open Directory Project, it extends a recently proposed technique, namely virtual nodes for associating categories, and builds multiple layers of nodes to achieve more elaborate personalization. Finally, we present the extension of personalization methods in order to build focused crawlers.