Summary: | This project considers the design of a machine learning system to search efficiently a database of texts related to climate change. The efficient search and navigation of such a database make it easier to find actionable information, detect trends, or derives other useful information. A key feature of such an information retrieval system is the numerical representation of such a text. This project implements and compares three different ways to represent a text in a vector space. Specifically, we contrast Bag-of-Words, Term Frequency - Inverse Document Frequency, and Doc2Vec in this context. The reported results indicate two cases: firstly, we observe that all 3 embeddings outperform a naive (fixed, expert rule-based) method for retrieving a text. In this case, the query contains part of the text with a small modification, while the result of the query should be the text itself. The Bag-of-Words approach turns out to be best in class for this task. Secondly, we consider the task where the query is a random string, while the desired result is based on a manual comparison of the results. Here we observe that the doc2vec approach is best in class. If the random queries become abstract-alike, the Bag-of-Words approach is performing almost as well. === Det har projektet tar hänsyn till utformningen av ett maskininlärningssystem för att effektivt söka i en databas med texter relaterade till klimatförändringar. Effektiv sökning och navigering av en sådan databas gör det lättare att upptäcka trender eller hitta användbar information. En nyckelfunktion i ett sådant informationshämtningssystem är den numeriska representationen av en sådan text. Detta projekt implementerar och jämför tre olika sätt att representera en text i en vektorrymd. Specifikt jämför vi Bag-of-Words, Term Frequency - Inverse Document Frequency och Doc2Vec i detta sammanhang. De rapporterade resultaten indikerar två fall: i det första fallet observerar vi att alla 3 implementationer overträffar en naiv metod för att hitta en text. I det här fallet innehåller forfrågan en del av texten med en mindre modifikation, medan resultatet bör vara själva texten. Bag-of-Words-metoden visar sig vara bäst lämpad för denna uppgift. I det andra fallet är f örfrågan en slumpmässig sträng, medan det önskade resultatet baseras på en manuell jämförelse av resultaten. Här observerar vi att doc2vec-metoden är bäst. Om förfrågan är lik ett förväntat resultat fungerar Bag-of-Words-metoden nästan lika bra.
|