Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum
I takt med att informationsmängden ökar i samhället ställs högre krav på mer förfinade metoder för sökning och hantering av information. Att utvinna relevant data från företagsinterna system blir en mer komplex uppgift då större informationsmängder måste hanteras och mycket kommunikation förflyttas...
Main Authors: | , |
---|---|
Format: | Others |
Language: | Swedish |
Published: |
KTH, Skolan för datavetenskap och kommunikation (CSC)
2017
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209695 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-209695 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-2096952018-01-14T05:11:39ZDistributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforumsweDistributional Representations of Words for Effective Information Retrieval : Information Retrieval in Customer Support ForumsLachmann, TimSabel, JohanKTH, Skolan för datavetenskap och kommunikation (CSC)KTH, Skolan för datavetenskap och kommunikation (CSC)2017word2vecfasttextgloveLSILSAword embeddingsinformation retrievalsearch enginemachine learningneural networksnatural language processingNLPdistributional representationsword2vecfasttextgloveLSILSAordinbäddninginformationssökningsökmotormaskininlärningspråkteknologineurala nätverkdistributionella representationerComputer SciencesDatavetenskap (datalogi)I takt med att informationsmängden ökar i samhället ställs högre krav på mer förfinade metoder för sökning och hantering av information. Att utvinna relevant data från företagsinterna system blir en mer komplex uppgift då större informationsmängder måste hanteras och mycket kommunikation förflyttas till digitala plattformar. Metoder för vektorbaserad ordinbäddning har under senare år gjort stora framsteg; i synnerhet visade Google 2013 banbrytande resultat med modellen Word2vec och överträffade äldre metoder. Vi implementerar en sökmotor som utnyttjar ordinbäddningar baserade på Word2vec och liknande modeller, avsedd att användas på IT-företaget Kundo och för produkten Kundo Forum. Resultaten visar på potential för informationssökning med markant bättre täckning utan minskad precision. Kopplat till huvudområdet informationssökning genomförs också en analys av vilka implikationer en förbättrad sökmotor har ur ett marknads- och produktutvecklingsperspektiv. As the abundance of information in society increases, so does the need for more sophisticated methods of information retrieval. Extracting information from internal systems becomes a more complex task when handling larger amounts of information and when more communications are transferred to digital platforms. Recent years methods for word embedding in vector space have gained traction. In 2013 Google sent ripples across the field of Natural Language Processing with a new method called Word2vec, significantly outperforming former practices. Among different established methods for information retrieval, we implement a retrieval method utilizing Word2vec and related methods of word embedding for the search engine at IT company Kundo and their product Kundo Forum. We demonstrate the potential to improve information retrieval recall by a significant margin without diminishing precision. Coupled with the primary subject of information retrieval we also investigate potential market and product development implications related to a different kind of search engine. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209695application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
Swedish |
format |
Others
|
sources |
NDLTD |
topic |
word2vec fasttext glove LSI LSA word embeddings information retrieval search engine machine learning neural networks natural language processing NLP distributional representations word2vec fasttext glove LSI LSA ordinbäddning informationssökning sökmotor maskininlärning språkteknologi neurala nätverk distributionella representationer Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
word2vec fasttext glove LSI LSA word embeddings information retrieval search engine machine learning neural networks natural language processing NLP distributional representations word2vec fasttext glove LSI LSA ordinbäddning informationssökning sökmotor maskininlärning språkteknologi neurala nätverk distributionella representationer Computer Sciences Datavetenskap (datalogi) Lachmann, Tim Sabel, Johan Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum |
description |
I takt med att informationsmängden ökar i samhället ställs högre krav på mer förfinade metoder för sökning och hantering av information. Att utvinna relevant data från företagsinterna system blir en mer komplex uppgift då större informationsmängder måste hanteras och mycket kommunikation förflyttas till digitala plattformar. Metoder för vektorbaserad ordinbäddning har under senare år gjort stora framsteg; i synnerhet visade Google 2013 banbrytande resultat med modellen Word2vec och överträffade äldre metoder. Vi implementerar en sökmotor som utnyttjar ordinbäddningar baserade på Word2vec och liknande modeller, avsedd att användas på IT-företaget Kundo och för produkten Kundo Forum. Resultaten visar på potential för informationssökning med markant bättre täckning utan minskad precision. Kopplat till huvudområdet informationssökning genomförs också en analys av vilka implikationer en förbättrad sökmotor har ur ett marknads- och produktutvecklingsperspektiv. === As the abundance of information in society increases, so does the need for more sophisticated methods of information retrieval. Extracting information from internal systems becomes a more complex task when handling larger amounts of information and when more communications are transferred to digital platforms. Recent years methods for word embedding in vector space have gained traction. In 2013 Google sent ripples across the field of Natural Language Processing with a new method called Word2vec, significantly outperforming former practices. Among different established methods for information retrieval, we implement a retrieval method utilizing Word2vec and related methods of word embedding for the search engine at IT company Kundo and their product Kundo Forum. We demonstrate the potential to improve information retrieval recall by a significant margin without diminishing precision. Coupled with the primary subject of information retrieval we also investigate potential market and product development implications related to a different kind of search engine. |
author |
Lachmann, Tim Sabel, Johan |
author_facet |
Lachmann, Tim Sabel, Johan |
author_sort |
Lachmann, Tim |
title |
Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum |
title_short |
Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum |
title_full |
Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum |
title_fullStr |
Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum |
title_full_unstemmed |
Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum |
title_sort |
distributionella representationer av ord för effektiv informationssökning : algoritmer för sökning i kundsupportforum |
publisher |
KTH, Skolan för datavetenskap och kommunikation (CSC) |
publishDate |
2017 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209695 |
work_keys_str_mv |
AT lachmanntim distributionellarepresentationeravordforeffektivinformationssokningalgoritmerforsokningikundsupportforum AT sabeljohan distributionellarepresentationeravordforeffektivinformationssokningalgoritmerforsokningikundsupportforum AT lachmanntim distributionalrepresentationsofwordsforeffectiveinformationretrievalinformationretrievalincustomersupportforums AT sabeljohan distributionalrepresentationsofwordsforeffectiveinformationretrievalinformationretrievalincustomersupportforums |
_version_ |
1718609749080014848 |