Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών

Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής δομής αντιστοιχεί σε μί...

Full description

Bibliographic Details
Main Author: Κοντοτάσιου, Ιωάννα
Other Authors: Τριανταφύλλου, Παναγιώτης
Language:gr
Published: 2012
Subjects:
Online Access:http://hdl.handle.net/10889/5251
id ndltd-upatras.gr-oai-nemertes-10889-5251
record_format oai_dc
collection NDLTD
language gr
sources NDLTD
topic Ιεραρχημένη ανάκτηση
Ταξινομία
006.312
Rank retrieval
Taxonomy
TREATS
top-K
Fagin
spellingShingle Ιεραρχημένη ανάκτηση
Ταξινομία
006.312
Rank retrieval
Taxonomy
TREATS
top-K
Fagin
Κοντοτάσιου, Ιωάννα
Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών
description Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής δομής αντιστοιχεί σε μία ετικέτα της ταξονομίας. Στην παρούσα διπλωματική εργασία θα γίνει χρήση τέτοιων ταξονομιών ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία ή περισσότερες ετικέτες. Το περιβάλλον το οποίο θα ορίσουμε είναι ιδιαίτερα δυναμικό, με την έννοια ότι η προσθαφαίρεση και τροποποίηση των ετικετών από τους χρήστες είναι συνεχής καθώς και ότι αντικείμενα μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό θα στοχεύσουμε στην αποδοτική ιεραρχημένη ανάκτηση περιεχομένου. Πρωταρχικό στόχο αποτελεί η δημιουργία μετρικών ομοιότητας μεταξύ ερωτημάτων, τα οποία υποβάλλονται από χρήστες, και του αποθηκευμένου και κατηγοριοποιημένου περιεχομένου. Οι μετρικές αυτές θα βασίζονται στη σημασιολογική απόσταση των κόμβων των ταξονομιών από τους όρους των υποβληθέντων ερωτημάτων (οι οποίοι όροι θα πρέπει επίσης να αποτελούν κόμβους της ταξονομίας). Βάσει των παραπάνω μετρικών θα σχεδιαστούν και θα υλοποιηθούν αλγόριθμοι για την ανάκτηση των k πιο σχετικών αντικειμένων, οι οποίοι θα αποτελούν επεκτάσεις των βασικών αλγορίθμων κατωφλίου του Fagin (Fagin's Threshold Algorithms - TA). Στην προτεινόμενη προσέγγιση θα καμφθεί η απαίτηση της προΰπαρξης ανεστραμμένων ευρετηρίων. Αντίθετα, τα απαιτούμενα (από τους αλγορίθμους του Fagin) ανεστραμμένα ευρετήρια να κατασκευάζονται δυναμικά κατά την απάντηση των ερωτημάτων. === The spark for this work stems from the recent explosion in social media production, the proven interest of users to tag this media, and on the proven capability of semantically rich taxonomies to appropriately classify content. The rich annotations/tags provided for social media offer a great basis for taxonomies. Noting that web search increasingly involves taxonomies, and that there exists already a rich set of taxonomies for many different fields, which can help classify tags, we target the problems associated with efficient taxonomy-based ranked retrieval in social web environments. In a social-tag taxonomies environment, each tag (taxonomy node) is associated with all documents tagged with this tag. Queries are formulated using tags. The environment is highly dynamic, as documents and tags-documents associations are being added and/or deleted constantly. This dynamism can render as highly inefficient the traditional approaches to ranked retrieval, which are based on text indices, due to the high index creation, maintenance, and use costs. We first adapt similarity measures between tag queries and documents, which are based on well-established principles of taxonomy-based search. We then develop algorithms for top-k queries exploiting taxonomic knowledge. We contribute a suit of top-k algorithms, coined TREATS (ThREshold Algorithms on TaxonomieS). Our first algorithm shows how to build per-tag inverted indices (required by the well-established Threshold Algorithms (TA) for top-k query processing). In this way, we port optimal ranked retrieval algorithms into the taxonomy realm. Our second algorithm, TREATS-sorted, shares the same principles as TA-sorted, but without the need to maintain any inverted text indices! This introduces significant savings: First, in terms of storage required to store the indices. Second, for the overhead for building and maintaining indices. And third, for the overhead incurred during query execution for accessing indices. Our third algorithm, TREATS-Labelled, further exploits the taxonomic structure in order to introduce large additional performance benefits. We also prove the correctness and (instance-)optimality of TREATS. Finally, we have implemented all algorithms and evaluated their efficiency against the baseline TA-random and TA-sorted algorithms, using real data sets with different characteristics.
author2 Τριανταφύλλου, Παναγιώτης
author_facet Τριανταφύλλου, Παναγιώτης
Κοντοτάσιου, Ιωάννα
author Κοντοτάσιου, Ιωάννα
author_sort Κοντοτάσιου, Ιωάννα
title Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών
title_short Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών
title_full Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών
title_fullStr Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών
title_full_unstemmed Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών
title_sort αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών
publishDate 2012
url http://hdl.handle.net/10889/5251
work_keys_str_mv AT kontotasiouiōanna apodotikēierarchēmenēanaktēsēkoinōnikouperiechomenoumechrēsētaxonomiōnetiketōn
AT kontotasiouiōanna treatsoptimalrankedretrievalwithtagtaxonomiesinsocialmediaenvironments
_version_ 1718118532801101824
spelling ndltd-upatras.gr-oai-nemertes-10889-52512015-10-30T05:04:54Z Αποδοτική ιεραρχημένη ανάκτηση κοινωνικού περιεχομένου με χρήση ταξονομιών ετικετών TREATS: optimal ranked retrieval with tag taxonomies in social media environments Κοντοτάσιου, Ιωάννα Τριανταφύλλου, Παναγιώτης Kontotasiou, Ioanna Γαλλόπουλος, Ευστράτιος Ιωάννης, Γαροφαλάκης Τριανταφύλλου, Παναγιώτης Ιεραρχημένη ανάκτηση Ταξινομία 006.312 Rank retrieval Taxonomy TREATS top-K Fagin Μία διαδεδομένη τεχνική που χρησιμοποιείται για την επίτευξη αποδοτικής αναζήτησης περιεχομένου είναι η κατηγοριοποίηση αυτού σε ταξονομίες ετικετών, δηλαδή σε δενδρικές <<ΕΙΝΑΙ-ΕΝΑ>> ιεραρχίες λέξεων-κλειδιών που παρέχουν οι χρήστες. Κάθε κόμβος της δενδρικής δομής αντιστοιχεί σε μία ετικέτα της ταξονομίας. Στην παρούσα διπλωματική εργασία θα γίνει χρήση τέτοιων ταξονομιών ετικετών, όπου κάθε αντικείμενο επισημαίνεται από τους χρήστες με μία ή περισσότερες ετικέτες. Το περιβάλλον το οποίο θα ορίσουμε είναι ιδιαίτερα δυναμικό, με την έννοια ότι η προσθαφαίρεση και τροποποίηση των ετικετών από τους χρήστες είναι συνεχής καθώς και ότι αντικείμενα μπορούν να προσθαφαιρούνται συνεχώς. Στο περιβάλλον αυτό θα στοχεύσουμε στην αποδοτική ιεραρχημένη ανάκτηση περιεχομένου. Πρωταρχικό στόχο αποτελεί η δημιουργία μετρικών ομοιότητας μεταξύ ερωτημάτων, τα οποία υποβάλλονται από χρήστες, και του αποθηκευμένου και κατηγοριοποιημένου περιεχομένου. Οι μετρικές αυτές θα βασίζονται στη σημασιολογική απόσταση των κόμβων των ταξονομιών από τους όρους των υποβληθέντων ερωτημάτων (οι οποίοι όροι θα πρέπει επίσης να αποτελούν κόμβους της ταξονομίας). Βάσει των παραπάνω μετρικών θα σχεδιαστούν και θα υλοποιηθούν αλγόριθμοι για την ανάκτηση των k πιο σχετικών αντικειμένων, οι οποίοι θα αποτελούν επεκτάσεις των βασικών αλγορίθμων κατωφλίου του Fagin (Fagin's Threshold Algorithms - TA). Στην προτεινόμενη προσέγγιση θα καμφθεί η απαίτηση της προΰπαρξης ανεστραμμένων ευρετηρίων. Αντίθετα, τα απαιτούμενα (από τους αλγορίθμους του Fagin) ανεστραμμένα ευρετήρια να κατασκευάζονται δυναμικά κατά την απάντηση των ερωτημάτων. The spark for this work stems from the recent explosion in social media production, the proven interest of users to tag this media, and on the proven capability of semantically rich taxonomies to appropriately classify content. The rich annotations/tags provided for social media offer a great basis for taxonomies. Noting that web search increasingly involves taxonomies, and that there exists already a rich set of taxonomies for many different fields, which can help classify tags, we target the problems associated with efficient taxonomy-based ranked retrieval in social web environments. In a social-tag taxonomies environment, each tag (taxonomy node) is associated with all documents tagged with this tag. Queries are formulated using tags. The environment is highly dynamic, as documents and tags-documents associations are being added and/or deleted constantly. This dynamism can render as highly inefficient the traditional approaches to ranked retrieval, which are based on text indices, due to the high index creation, maintenance, and use costs. We first adapt similarity measures between tag queries and documents, which are based on well-established principles of taxonomy-based search. We then develop algorithms for top-k queries exploiting taxonomic knowledge. We contribute a suit of top-k algorithms, coined TREATS (ThREshold Algorithms on TaxonomieS). Our first algorithm shows how to build per-tag inverted indices (required by the well-established Threshold Algorithms (TA) for top-k query processing). In this way, we port optimal ranked retrieval algorithms into the taxonomy realm. Our second algorithm, TREATS-sorted, shares the same principles as TA-sorted, but without the need to maintain any inverted text indices! This introduces significant savings: First, in terms of storage required to store the indices. Second, for the overhead for building and maintaining indices. And third, for the overhead incurred during query execution for accessing indices. Our third algorithm, TREATS-Labelled, further exploits the taxonomic structure in order to introduce large additional performance benefits. We also prove the correctness and (instance-)optimality of TREATS. Finally, we have implemented all algorithms and evaluated their efficiency against the baseline TA-random and TA-sorted algorithms, using real data sets with different characteristics. 2012-05-15T07:53:23Z 2012-05-15T07:53:23Z 2012-01-27 2012-05-15 Thesis http://hdl.handle.net/10889/5251 gr Η ΒΚΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. 0