Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum

I takt med att informationsmängden ökar i samhället ställs högre krav på mer förfinade metoder för sökning och hantering av information. Att utvinna relevant data från företagsinterna system blir en mer komplex uppgift då större informationsmängder måste hanteras och mycket kommunikation förflyttas...

Full description

Bibliographic Details
Main Authors: Lachmann, Tim, Sabel, Johan
Format: Others
Language:Swedish
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2017
Subjects:
LSI
LSA
NLP
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209695
id ndltd-UPSALLA1-oai-DiVA.org-kth-209695
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2096952018-01-14T05:11:39ZDistributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforumsweDistributional Representations of Words for Effective Information Retrieval : Information Retrieval in Customer Support ForumsLachmann, TimSabel, JohanKTH, Skolan för datavetenskap och kommunikation (CSC)KTH, Skolan för datavetenskap och kommunikation (CSC)2017word2vecfasttextgloveLSILSAword embeddingsinformation retrievalsearch enginemachine learningneural networksnatural language processingNLPdistributional representationsword2vecfasttextgloveLSILSAordinbäddninginformationssökningsökmotormaskininlärningspråkteknologineurala nätverkdistributionella representationerComputer SciencesDatavetenskap (datalogi)I takt med att informationsmängden ökar i samhället ställs högre krav på mer förfinade metoder för sökning och hantering av information. Att utvinna relevant data från företagsinterna system blir en mer komplex uppgift då större informationsmängder måste hanteras och mycket kommunikation förflyttas till digitala plattformar. Metoder för vektorbaserad ordinbäddning har under senare år gjort stora framsteg; i synnerhet visade Google 2013 banbrytande resultat med modellen Word2vec och överträffade äldre metoder. Vi implementerar en sökmotor som utnyttjar ordinbäddningar baserade på Word2vec och liknande modeller, avsedd att användas på IT-företaget Kundo och för produkten Kundo Forum. Resultaten visar på potential för informationssökning med markant bättre täckning utan minskad precision. Kopplat till huvudområdet informationssökning genomförs också en analys av vilka implikationer en förbättrad sökmotor har ur ett marknads- och produktutvecklingsperspektiv. As the abundance of information in society increases, so does the need for more sophisticated methods of information retrieval. Extracting information from internal systems becomes a more complex task when handling larger amounts of information and when more communications are transferred to digital platforms. Recent years methods for word embedding in vector space have gained traction. In 2013 Google sent ripples across the field of Natural Language Processing with a new method called Word2vec, significantly outperforming former practices. Among different established methods for information retrieval, we implement a retrieval method utilizing Word2vec and related methods of word embedding for the search engine at IT company Kundo and their product Kundo Forum. We demonstrate the potential to improve information retrieval recall by a significant margin without diminishing precision. Coupled with the primary subject of information retrieval we also investigate potential market and product development implications related to a different kind of search engine. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209695application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language Swedish
format Others
sources NDLTD
topic word2vec
fasttext
glove
LSI
LSA
word embeddings
information retrieval
search engine
machine learning
neural networks
natural language processing
NLP
distributional representations
word2vec
fasttext
glove
LSI
LSA
ordinbäddning
informationssökning
sökmotor
maskininlärning
språkteknologi
neurala nätverk
distributionella representationer
Computer Sciences
Datavetenskap (datalogi)
spellingShingle word2vec
fasttext
glove
LSI
LSA
word embeddings
information retrieval
search engine
machine learning
neural networks
natural language processing
NLP
distributional representations
word2vec
fasttext
glove
LSI
LSA
ordinbäddning
informationssökning
sökmotor
maskininlärning
språkteknologi
neurala nätverk
distributionella representationer
Computer Sciences
Datavetenskap (datalogi)
Lachmann, Tim
Sabel, Johan
Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum
description I takt med att informationsmängden ökar i samhället ställs högre krav på mer förfinade metoder för sökning och hantering av information. Att utvinna relevant data från företagsinterna system blir en mer komplex uppgift då större informationsmängder måste hanteras och mycket kommunikation förflyttas till digitala plattformar. Metoder för vektorbaserad ordinbäddning har under senare år gjort stora framsteg; i synnerhet visade Google 2013 banbrytande resultat med modellen Word2vec och överträffade äldre metoder. Vi implementerar en sökmotor som utnyttjar ordinbäddningar baserade på Word2vec och liknande modeller, avsedd att användas på IT-företaget Kundo och för produkten Kundo Forum. Resultaten visar på potential för informationssökning med markant bättre täckning utan minskad precision. Kopplat till huvudområdet informationssökning genomförs också en analys av vilka implikationer en förbättrad sökmotor har ur ett marknads- och produktutvecklingsperspektiv. === As the abundance of information in society increases, so does the need for more sophisticated methods of information retrieval. Extracting information from internal systems becomes a more complex task when handling larger amounts of information and when more communications are transferred to digital platforms. Recent years methods for word embedding in vector space have gained traction. In 2013 Google sent ripples across the field of Natural Language Processing with a new method called Word2vec, significantly outperforming former practices. Among different established methods for information retrieval, we implement a retrieval method utilizing Word2vec and related methods of word embedding for the search engine at IT company Kundo and their product Kundo Forum. We demonstrate the potential to improve information retrieval recall by a significant margin without diminishing precision. Coupled with the primary subject of information retrieval we also investigate potential market and product development implications related to a different kind of search engine.
author Lachmann, Tim
Sabel, Johan
author_facet Lachmann, Tim
Sabel, Johan
author_sort Lachmann, Tim
title Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum
title_short Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum
title_full Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum
title_fullStr Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum
title_full_unstemmed Distributionella representationer av ord för effektiv informationssökning : Algoritmer för sökning i kundsupportforum
title_sort distributionella representationer av ord för effektiv informationssökning : algoritmer för sökning i kundsupportforum
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2017
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209695
work_keys_str_mv AT lachmanntim distributionellarepresentationeravordforeffektivinformationssokningalgoritmerforsokningikundsupportforum
AT sabeljohan distributionellarepresentationeravordforeffektivinformationssokningalgoritmerforsokningikundsupportforum
AT lachmanntim distributionalrepresentationsofwordsforeffectiveinformationretrievalinformationretrievalincustomersupportforums
AT sabeljohan distributionalrepresentationsofwordsforeffectiveinformationretrievalinformationretrievalincustomersupportforums
_version_ 1718609749080014848