Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal

Sentiment classification is the process of analyzing data and classifying it based on its sentiment conveying properties and the process has a multitude of applications in different industries. However, the different application areas also introduce diverse challenges in implementing the methods suc...

Full description

Bibliographic Details
Main Authors: Pålsson, Andreas, Szerszen, Daniel
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2016
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187481
id ndltd-UPSALLA1-oai-DiVA.org-kth-187481
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1874812018-01-11T05:11:42ZSentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon RemovalengAttitydanalys i Sociala Medier : En Analys av Metoder och Uttryckssymbolers InverkanPålsson, AndreasSzerszen, DanielKTH, Skolan för datavetenskap och kommunikation (CSC)KTH, Skolan för datavetenskap och kommunikation (CSC)2016Computer SciencesDatavetenskap (datalogi)Sentiment classification is the process of analyzing data and classifying it based on its sentiment conveying properties and the process has a multitude of applications in different industries. However, the different application areas also introduce diverse challenges in implementing the methods successfully. This report examines two of the main approaches commonly used for sentiment classification which entail the use of machine learning and a glossary of weighted words respectively. In addition, preprocessing is explored as an enhancement to the previously mentioned approaches. The approaches are tested on data collected from Twitter to examine their performance in social media. The results indicate that lexicon-based classifiers are the most performant, and that removal of emoticons increases the correctness of classification. Att kategorisera text beroende på vilken känsla som uttrycks har fått många användningsområden i många industrier. De olika användningsområdena introducerar olika svårigheter att på ett korrekt och konsekvent sätt uppfylla de krav som ställs. Denna rapport avser utforska och bedöma två tillvägagångssätt, ett i form av maskininlärning samt en metod som jämför orden i en text med ordvikter från ett fördefinierat lexikon. Utöver detta analyseras emoji-borttagning som ett möjligt förbättringssätt till båda tillvägagångssätten. Metoderna är testade på data taget från Twitter i syfte att analysera prestandan när data från sociala medier används. Resultaten indikerar att den lexikon-baserade metoden presterar bättre, och att borttagning av emojis ökar korrektheten av klassificeringen. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187481application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer Sciences
Datavetenskap (datalogi)
spellingShingle Computer Sciences
Datavetenskap (datalogi)
Pålsson, Andreas
Szerszen, Daniel
Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal
description Sentiment classification is the process of analyzing data and classifying it based on its sentiment conveying properties and the process has a multitude of applications in different industries. However, the different application areas also introduce diverse challenges in implementing the methods successfully. This report examines two of the main approaches commonly used for sentiment classification which entail the use of machine learning and a glossary of weighted words respectively. In addition, preprocessing is explored as an enhancement to the previously mentioned approaches. The approaches are tested on data collected from Twitter to examine their performance in social media. The results indicate that lexicon-based classifiers are the most performant, and that removal of emoticons increases the correctness of classification. === Att kategorisera text beroende på vilken känsla som uttrycks har fått många användningsområden i många industrier. De olika användningsområdena introducerar olika svårigheter att på ett korrekt och konsekvent sätt uppfylla de krav som ställs. Denna rapport avser utforska och bedöma två tillvägagångssätt, ett i form av maskininlärning samt en metod som jämför orden i en text med ordvikter från ett fördefinierat lexikon. Utöver detta analyseras emoji-borttagning som ett möjligt förbättringssätt till båda tillvägagångssätten. Metoderna är testade på data taget från Twitter i syfte att analysera prestandan när data från sociala medier används. Resultaten indikerar att den lexikon-baserade metoden presterar bättre, och att borttagning av emojis ökar korrektheten av klassificeringen.
author Pålsson, Andreas
Szerszen, Daniel
author_facet Pålsson, Andreas
Szerszen, Daniel
author_sort Pålsson, Andreas
title Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal
title_short Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal
title_full Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal
title_fullStr Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal
title_full_unstemmed Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal
title_sort sentiment classification in social media : an analysis of methods and the impact of emoticon removal
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2016
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187481
work_keys_str_mv AT palssonandreas sentimentclassificationinsocialmediaananalysisofmethodsandtheimpactofemoticonremoval
AT szerszendaniel sentimentclassificationinsocialmediaananalysisofmethodsandtheimpactofemoticonremoval
AT palssonandreas attitydanalysisocialamedierenanalysavmetoderochuttryckssymbolersinverkan
AT szerszendaniel attitydanalysisocialamedierenanalysavmetoderochuttryckssymbolersinverkan
_version_ 1718604338915442688