Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback

The aim of this thesis work is to improve the performance of an already existing information retrieval system that uses relevance feedback for performing query expansion. It is a constant goal to improve this system because the docu- ments that are retrieved are a base for various data analysis task...

Full description

Bibliographic Details
Main Author: Nordin, Alexandra
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2016
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-185184
id ndltd-UPSALLA1-oai-DiVA.org-kth-185184
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1851842018-01-11T05:12:21ZImproving an Information Retrieval System by Using Machine Learning to Improve User Relevance FeedbackengFörbättring av ett informationssökningssystem genom att använda maskininlärning för att förbättra relevansåterkoppling från en användareNordin, AlexandraKTH, Skolan för datavetenskap och kommunikation (CSC)2016InformationssökningMaskininlärningSpråkteknologiComputer SciencesDatavetenskap (datalogi)The aim of this thesis work is to improve the performance of an already existing information retrieval system that uses relevance feedback for performing query expansion. It is a constant goal to improve this system because the docu- ments that are retrieved are a base for various data analysis tasks. It is therefore important that the precision and re- call are high. A user can choose to give relevance feedback when executing a query, meaning the user can mark docu- ments in the search result as relevant or irrelevant and redo the search based on this feedback. The original query will then be expanded based on the user’s feedback. The ap- proach presented in this thesis uses the documents marked as relevant or irrelevant to train a classifier that can classify unknown documents from the search result as either rele- vant, irrelevant or unknown. The aim is to classify unknown documents and add them to the set of feedback documents that are used for the query expansion. The assumption that this thesis is based on is that the more feedback a user gives, the better the query expansion will perform. The system developed in this thesis is evaluated for the English language. The results in this thesis show that integrating the classifier in the existing system improved the perfor- mance in three out of four use cases. The existing system already has a good performance, but small improvements are important. It would therefore be beneficial to integrate it into the existing system.  I detta examensarbetet så är målet att förbättra ett exi- sterande informationssökningssystem som använder sig av relevansåterkoppling för att utföra sökfrågeexpansion. Det finns en konstant efterfrågan att förbättra prestandan av detta system då de dokument som returneras används för olika dataanalysuppgifter. Därför är det viktigt att både precision och täckning är så högt som möjligt. En använ- dare kan välja att ge relevansåterkoppling, vilket betyder att användaren markerar dokument som är relevanta och irrelevanta, vilket sedan används för att utföra sökfråge- expansion. Den initiala sökfrågan expanderas utifrån in- formation från relevansåterkopplingen. Tillvägagångssättet som presenteras i detta arbete använder de markerade do- kumenten för att träna en maskininlärningsmodell som kan klassificera oklassade document som relevanta, irrelevanat eller okända. Målet är att klassificera okända dokument och sedan lägga till dem till uppsättningen av relevansåterkopp- lingsdokument som användaren har markerat. Antagandet som denna metod baseras på är att ju mer relevansåter- koppling som ges, desto bättre sökfrågeexpansion kan sy- stemet utföra. Systemet som utvecklades i detta examens- arbete är byggt för och evaluerat mot data som äs skrivet på engelska. Resultaten i detta arbete visar att denna metod förbättrade resultaten i tre utav fyra testfall. Prestandan för det existerande systemet är redan på en hög nivå, men små förbättringar är viktiga. Det skulle vara en fördel att integrera detta i det existerande systemet.  Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-185184application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Informationssökning
Maskininlärning
Språkteknologi
Computer Sciences
Datavetenskap (datalogi)
spellingShingle Informationssökning
Maskininlärning
Språkteknologi
Computer Sciences
Datavetenskap (datalogi)
Nordin, Alexandra
Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback
description The aim of this thesis work is to improve the performance of an already existing information retrieval system that uses relevance feedback for performing query expansion. It is a constant goal to improve this system because the docu- ments that are retrieved are a base for various data analysis tasks. It is therefore important that the precision and re- call are high. A user can choose to give relevance feedback when executing a query, meaning the user can mark docu- ments in the search result as relevant or irrelevant and redo the search based on this feedback. The original query will then be expanded based on the user’s feedback. The ap- proach presented in this thesis uses the documents marked as relevant or irrelevant to train a classifier that can classify unknown documents from the search result as either rele- vant, irrelevant or unknown. The aim is to classify unknown documents and add them to the set of feedback documents that are used for the query expansion. The assumption that this thesis is based on is that the more feedback a user gives, the better the query expansion will perform. The system developed in this thesis is evaluated for the English language. The results in this thesis show that integrating the classifier in the existing system improved the perfor- mance in three out of four use cases. The existing system already has a good performance, but small improvements are important. It would therefore be beneficial to integrate it into the existing system.  === I detta examensarbetet så är målet att förbättra ett exi- sterande informationssökningssystem som använder sig av relevansåterkoppling för att utföra sökfrågeexpansion. Det finns en konstant efterfrågan att förbättra prestandan av detta system då de dokument som returneras används för olika dataanalysuppgifter. Därför är det viktigt att både precision och täckning är så högt som möjligt. En använ- dare kan välja att ge relevansåterkoppling, vilket betyder att användaren markerar dokument som är relevanta och irrelevanta, vilket sedan används för att utföra sökfråge- expansion. Den initiala sökfrågan expanderas utifrån in- formation från relevansåterkopplingen. Tillvägagångssättet som presenteras i detta arbete använder de markerade do- kumenten för att träna en maskininlärningsmodell som kan klassificera oklassade document som relevanta, irrelevanat eller okända. Målet är att klassificera okända dokument och sedan lägga till dem till uppsättningen av relevansåterkopp- lingsdokument som användaren har markerat. Antagandet som denna metod baseras på är att ju mer relevansåter- koppling som ges, desto bättre sökfrågeexpansion kan sy- stemet utföra. Systemet som utvecklades i detta examens- arbete är byggt för och evaluerat mot data som äs skrivet på engelska. Resultaten i detta arbete visar att denna metod förbättrade resultaten i tre utav fyra testfall. Prestandan för det existerande systemet är redan på en hög nivå, men små förbättringar är viktiga. Det skulle vara en fördel att integrera detta i det existerande systemet. 
author Nordin, Alexandra
author_facet Nordin, Alexandra
author_sort Nordin, Alexandra
title Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback
title_short Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback
title_full Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback
title_fullStr Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback
title_full_unstemmed Improving an Information Retrieval System by Using Machine Learning to Improve User Relevance Feedback
title_sort improving an information retrieval system by using machine learning to improve user relevance feedback
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2016
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-185184
work_keys_str_mv AT nordinalexandra improvinganinformationretrievalsystembyusingmachinelearningtoimproveuserrelevancefeedback
AT nordinalexandra forbattringavettinformationssokningssystemgenomattanvandamaskininlarningforattforbattrarelevansaterkopplingfranenanvandare
_version_ 1718604858561396736