Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών

Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής δομής αντιστοιχεί σε μί...

Full description

Bibliographic Details
Main Author: Κοντοτάσιου, Ιωάννα
Other Authors: Τριανταφύλλου, Παναγιώτης
Language:gr
Published: 2012
Subjects:
Online Access:http://hdl.handle.net/10889/5251
Description
Summary:Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής δομής αντιστοιχεί σε μία ετικέτα της ταξονομίας. Στην παρούσα διπλωματική εργασία θα γίνει χρήση τέτοιων ταξονομιών ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία ή περισσότερες ετικέτες. Το περιβάλλον το οποίο θα ορίσουμε είναι ιδιαίτερα δυναμικό, με την έννοια ότι η προσθαφαίρεση και τροποποίηση των ετικετών από τους χρήστες είναι συνεχής καθώς και ότι αντικείμενα μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό θα στοχεύσουμε στην αποδοτική ιεραρχημένη ανάκτηση περιεχομένου. Πρωταρχικό στόχο αποτελεί η δημιουργία μετρικών ομοιότητας μεταξύ ερωτημάτων, τα οποία υποβάλλονται από χρήστες, και του αποθηκευμένου και κατηγοριοποιημένου περιεχομένου. Οι μετρικές αυτές θα βασίζονται στη σημασιολογική απόσταση των κόμβων των ταξονομιών από τους όρους των υποβληθέντων ερωτημάτων (οι οποίοι όροι θα πρέπει επίσης να αποτελούν κόμβους της ταξονομίας). Βάσει των παραπάνω μετρικών θα σχεδιαστούν και θα υλοποιηθούν αλγόριθμοι για την ανάκτηση των k πιο σχετικών αντικειμένων, οι οποίοι θα αποτελούν επεκτάσεις των βασικών αλγορίθμων κατωφλίου του Fagin (Fagin's Threshold Algorithms - TA). Στην προτεινόμενη προσέγγιση θα καμφθεί η απαίτηση της προΰπαρξης ανεστραμμένων ευρετηρίων. Αντίθετα, τα απαιτούμενα (από τους αλγορίθμους του Fagin) ανεστραμμένα ευρετήρια να κατασκευάζονται δυναμικά κατά την απάντηση των ερωτημάτων. === The spark for this work stems from the recent explosion in social media production, the proven interest of users to tag this media, and on the proven capability of semantically rich taxonomies to appropriately classify content. The rich annotations/tags provided for social media offer a great basis for taxonomies. Noting that web search increasingly involves taxonomies, and that there exists already a rich set of taxonomies for many different fields, which can help classify tags, we target the problems associated with efficient taxonomy-based ranked retrieval in social web environments. In a social-tag taxonomies environment, each tag (taxonomy node) is associated with all documents tagged with this tag. Queries are formulated using tags. The environment is highly dynamic, as documents and tags-documents associations are being added and/or deleted constantly. This dynamism can render as highly inefficient the traditional approaches to ranked retrieval, which are based on text indices, due to the high index creation, maintenance, and use costs. We first adapt similarity measures between tag queries and documents, which are based on well-established principles of taxonomy-based search. We then develop algorithms for top-k queries exploiting taxonomic knowledge. We contribute a suit of top-k algorithms, coined TREATS (ThREshold Algorithms on TaxonomieS). Our first algorithm shows how to build per-tag inverted indices (required by the well-established Threshold Algorithms (TA) for top-k query processing). In this way, we port optimal ranked retrieval algorithms into the taxonomy realm. Our second algorithm, TREATS-sorted, shares the same principles as TA-sorted, but without the need to maintain any inverted text indices! This introduces significant savings: First, in terms of storage required to store the indices. Second, for the overhead for building and maintaining indices. And third, for the overhead incurred during query execution for accessing indices. Our third algorithm, TREATS-Labelled, further exploits the taxonomic structure in order to introduce large additional performance benefits. We also prove the correctness and (instance-)optimality of TREATS. Finally, we have implemented all algorithms and evaluated their efficiency against the baseline TA-random and TA-sorted algorithms, using real data sets with different characteristics.