Labeling Clusters of Search Results

This project evaluates different algorithms which could be used in a summary information retrieval (IR) application for Swedish texts. Instead of the traditional search results the summary application would generate a summary document of the various subtopics of an IR query. First it is noted that i...

Full description

Bibliographic Details
Main Author: Nycander, Martin
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2013
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142444
id ndltd-UPSALLA1-oai-DiVA.org-kth-142444
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1424442018-01-12T05:12:36ZLabeling Clusters of Search ResultsengA rubricera kluster av sökresultatNycander, MartinKTH, Skolan för datavetenskap och kommunikation (CSC)2013Computer SciencesDatavetenskap (datalogi)This project evaluates different algorithms which could be used in a summary information retrieval (IR) application for Swedish texts. Instead of the traditional search results the summary application would generate a summary document of the various subtopics of an IR query. First it is noted that in order to nd subtopics of a query, some kind of document clustering is needed. k-means is chosen as a candidate document clustering algorithm and evaluated in the environment of an IR application. It is found to be fast enough and to work better than the random clustering algorithm. Although it is argued that it is not good enough to be used in a summary/labeling context. Secondly the project looks into labeling algorithms to be used in the aforementioned IR application. Four algorithms were evaluated: TF centroid, TF- IDF centroid, mutual information and CorePhrase. None were deemed to generate high enough quality labels to be useful, but it was noted that TF-IDF is a good choice when constructing labels from an IR query. Det här projektet utvärderar olika algoritmer som skulle kunna komma att användas i en sammanfattande informationssökningsapplikation för svenska texter. Istället för den traditionella sökresultatslistan ska applikationen generera en sammanfattning av de olika delämnen från ett sökresultat. Först fastlås det att för att hitta delämnen av en sökfråga så behövs det någon form av dokumentklustring. K-means algoritmen väljs som en lämplig kandidat och evalueras i kontexten sökapplikation. Den anses vara snabb nog och ger bättre resultat än slumpen. Även om det framhålls att kvalitéten inte är tillräckligt bra för att användas i en summerings-/rubriceringskontext. Vidare tittar projektet på etiketteringsalgoritmer som ska användas i den tidigare nämnda sökapplikationen. Fyra algoritmer utvärderas: TF centroid, TF-IDF centroid, mutual information och CorePhrase. Ingen av dessa algoritmer bedöms generera etiketter av tillräckligt hög kvalité för att vara användbara, men det konstateras att TF-IDF är det bättre valet när etiketter konstrueras från ett sökresultat. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142444application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer Sciences
Datavetenskap (datalogi)
spellingShingle Computer Sciences
Datavetenskap (datalogi)
Nycander, Martin
Labeling Clusters of Search Results
description This project evaluates different algorithms which could be used in a summary information retrieval (IR) application for Swedish texts. Instead of the traditional search results the summary application would generate a summary document of the various subtopics of an IR query. First it is noted that in order to nd subtopics of a query, some kind of document clustering is needed. k-means is chosen as a candidate document clustering algorithm and evaluated in the environment of an IR application. It is found to be fast enough and to work better than the random clustering algorithm. Although it is argued that it is not good enough to be used in a summary/labeling context. Secondly the project looks into labeling algorithms to be used in the aforementioned IR application. Four algorithms were evaluated: TF centroid, TF- IDF centroid, mutual information and CorePhrase. None were deemed to generate high enough quality labels to be useful, but it was noted that TF-IDF is a good choice when constructing labels from an IR query. === Det här projektet utvärderar olika algoritmer som skulle kunna komma att användas i en sammanfattande informationssökningsapplikation för svenska texter. Istället för den traditionella sökresultatslistan ska applikationen generera en sammanfattning av de olika delämnen från ett sökresultat. Först fastlås det att för att hitta delämnen av en sökfråga så behövs det någon form av dokumentklustring. K-means algoritmen väljs som en lämplig kandidat och evalueras i kontexten sökapplikation. Den anses vara snabb nog och ger bättre resultat än slumpen. Även om det framhålls att kvalitéten inte är tillräckligt bra för att användas i en summerings-/rubriceringskontext. Vidare tittar projektet på etiketteringsalgoritmer som ska användas i den tidigare nämnda sökapplikationen. Fyra algoritmer utvärderas: TF centroid, TF-IDF centroid, mutual information och CorePhrase. Ingen av dessa algoritmer bedöms generera etiketter av tillräckligt hög kvalité för att vara användbara, men det konstateras att TF-IDF är det bättre valet när etiketter konstrueras från ett sökresultat.
author Nycander, Martin
author_facet Nycander, Martin
author_sort Nycander, Martin
title Labeling Clusters of Search Results
title_short Labeling Clusters of Search Results
title_full Labeling Clusters of Search Results
title_fullStr Labeling Clusters of Search Results
title_full_unstemmed Labeling Clusters of Search Results
title_sort labeling clusters of search results
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2013
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142444
work_keys_str_mv AT nycandermartin labelingclustersofsearchresults
AT nycandermartin arubriceraklusteravsokresultat
_version_ 1718606351663366144