Labeling Clusters of Search Results
This project evaluates different algorithms which could be used in a summary information retrieval (IR) application for Swedish texts. Instead of the traditional search results the summary application would generate a summary document of the various subtopics of an IR query. First it is noted that i...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för datavetenskap och kommunikation (CSC)
2013
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142444 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-142444 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1424442018-01-12T05:12:36ZLabeling Clusters of Search ResultsengA rubricera kluster av sökresultatNycander, MartinKTH, Skolan för datavetenskap och kommunikation (CSC)2013Computer SciencesDatavetenskap (datalogi)This project evaluates different algorithms which could be used in a summary information retrieval (IR) application for Swedish texts. Instead of the traditional search results the summary application would generate a summary document of the various subtopics of an IR query. First it is noted that in order to nd subtopics of a query, some kind of document clustering is needed. k-means is chosen as a candidate document clustering algorithm and evaluated in the environment of an IR application. It is found to be fast enough and to work better than the random clustering algorithm. Although it is argued that it is not good enough to be used in a summary/labeling context. Secondly the project looks into labeling algorithms to be used in the aforementioned IR application. Four algorithms were evaluated: TF centroid, TF- IDF centroid, mutual information and CorePhrase. None were deemed to generate high enough quality labels to be useful, but it was noted that TF-IDF is a good choice when constructing labels from an IR query. Det här projektet utvärderar olika algoritmer som skulle kunna komma att användas i en sammanfattande informationssökningsapplikation för svenska texter. Istället för den traditionella sökresultatslistan ska applikationen generera en sammanfattning av de olika delämnen från ett sökresultat. Först fastlås det att för att hitta delämnen av en sökfråga så behövs det någon form av dokumentklustring. K-means algoritmen väljs som en lämplig kandidat och evalueras i kontexten sökapplikation. Den anses vara snabb nog och ger bättre resultat än slumpen. Även om det framhålls att kvalitéten inte är tillräckligt bra för att användas i en summerings-/rubriceringskontext. Vidare tittar projektet på etiketteringsalgoritmer som ska användas i den tidigare nämnda sökapplikationen. Fyra algoritmer utvärderas: TF centroid, TF-IDF centroid, mutual information och CorePhrase. Ingen av dessa algoritmer bedöms generera etiketter av tillräckligt hög kvalité för att vara användbara, men det konstateras att TF-IDF är det bättre valet när etiketter konstrueras från ett sökresultat. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142444application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
Computer Sciences Datavetenskap (datalogi) Nycander, Martin Labeling Clusters of Search Results |
description |
This project evaluates different algorithms which could be used in a summary information retrieval (IR) application for Swedish texts. Instead of the traditional search results the summary application would generate a summary document of the various subtopics of an IR query. First it is noted that in order to nd subtopics of a query, some kind of document clustering is needed. k-means is chosen as a candidate document clustering algorithm and evaluated in the environment of an IR application. It is found to be fast enough and to work better than the random clustering algorithm. Although it is argued that it is not good enough to be used in a summary/labeling context. Secondly the project looks into labeling algorithms to be used in the aforementioned IR application. Four algorithms were evaluated: TF centroid, TF- IDF centroid, mutual information and CorePhrase. None were deemed to generate high enough quality labels to be useful, but it was noted that TF-IDF is a good choice when constructing labels from an IR query. === Det här projektet utvärderar olika algoritmer som skulle kunna komma att användas i en sammanfattande informationssökningsapplikation för svenska texter. Istället för den traditionella sökresultatslistan ska applikationen generera en sammanfattning av de olika delämnen från ett sökresultat. Först fastlås det att för att hitta delämnen av en sökfråga så behövs det någon form av dokumentklustring. K-means algoritmen väljs som en lämplig kandidat och evalueras i kontexten sökapplikation. Den anses vara snabb nog och ger bättre resultat än slumpen. Även om det framhålls att kvalitéten inte är tillräckligt bra för att användas i en summerings-/rubriceringskontext. Vidare tittar projektet på etiketteringsalgoritmer som ska användas i den tidigare nämnda sökapplikationen. Fyra algoritmer utvärderas: TF centroid, TF-IDF centroid, mutual information och CorePhrase. Ingen av dessa algoritmer bedöms generera etiketter av tillräckligt hög kvalité för att vara användbara, men det konstateras att TF-IDF är det bättre valet när etiketter konstrueras från ett sökresultat. |
author |
Nycander, Martin |
author_facet |
Nycander, Martin |
author_sort |
Nycander, Martin |
title |
Labeling Clusters of Search Results |
title_short |
Labeling Clusters of Search Results |
title_full |
Labeling Clusters of Search Results |
title_fullStr |
Labeling Clusters of Search Results |
title_full_unstemmed |
Labeling Clusters of Search Results |
title_sort |
labeling clusters of search results |
publisher |
KTH, Skolan för datavetenskap och kommunikation (CSC) |
publishDate |
2013 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-142444 |
work_keys_str_mv |
AT nycandermartin labelingclustersofsearchresults AT nycandermartin arubriceraklusteravsokresultat |
_version_ |
1718606351663366144 |