Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal
Sentiment classification is the process of analyzing data and classifying it based on its sentiment conveying properties and the process has a multitude of applications in different industries. However, the different application areas also introduce diverse challenges in implementing the methods suc...
Main Authors: | , |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för datavetenskap och kommunikation (CSC)
2016
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187481 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-187481 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1874812018-01-11T05:11:42ZSentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon RemovalengAttitydanalys i Sociala Medier : En Analys av Metoder och Uttryckssymbolers InverkanPålsson, AndreasSzerszen, DanielKTH, Skolan för datavetenskap och kommunikation (CSC)KTH, Skolan för datavetenskap och kommunikation (CSC)2016Computer SciencesDatavetenskap (datalogi)Sentiment classification is the process of analyzing data and classifying it based on its sentiment conveying properties and the process has a multitude of applications in different industries. However, the different application areas also introduce diverse challenges in implementing the methods successfully. This report examines two of the main approaches commonly used for sentiment classification which entail the use of machine learning and a glossary of weighted words respectively. In addition, preprocessing is explored as an enhancement to the previously mentioned approaches. The approaches are tested on data collected from Twitter to examine their performance in social media. The results indicate that lexicon-based classifiers are the most performant, and that removal of emoticons increases the correctness of classification. Att kategorisera text beroende på vilken känsla som uttrycks har fått många användningsområden i många industrier. De olika användningsområdena introducerar olika svårigheter att på ett korrekt och konsekvent sätt uppfylla de krav som ställs. Denna rapport avser utforska och bedöma två tillvägagångssätt, ett i form av maskininlärning samt en metod som jämför orden i en text med ordvikter från ett fördefinierat lexikon. Utöver detta analyseras emoji-borttagning som ett möjligt förbättringssätt till båda tillvägagångssätten. Metoderna är testade på data taget från Twitter i syfte att analysera prestandan när data från sociala medier används. Resultaten indikerar att den lexikon-baserade metoden presterar bättre, och att borttagning av emojis ökar korrektheten av klassificeringen. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187481application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
Computer Sciences Datavetenskap (datalogi) Pålsson, Andreas Szerszen, Daniel Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal |
description |
Sentiment classification is the process of analyzing data and classifying it based on its sentiment conveying properties and the process has a multitude of applications in different industries. However, the different application areas also introduce diverse challenges in implementing the methods successfully. This report examines two of the main approaches commonly used for sentiment classification which entail the use of machine learning and a glossary of weighted words respectively. In addition, preprocessing is explored as an enhancement to the previously mentioned approaches. The approaches are tested on data collected from Twitter to examine their performance in social media. The results indicate that lexicon-based classifiers are the most performant, and that removal of emoticons increases the correctness of classification. === Att kategorisera text beroende på vilken känsla som uttrycks har fått många användningsområden i många industrier. De olika användningsområdena introducerar olika svårigheter att på ett korrekt och konsekvent sätt uppfylla de krav som ställs. Denna rapport avser utforska och bedöma två tillvägagångssätt, ett i form av maskininlärning samt en metod som jämför orden i en text med ordvikter från ett fördefinierat lexikon. Utöver detta analyseras emoji-borttagning som ett möjligt förbättringssätt till båda tillvägagångssätten. Metoderna är testade på data taget från Twitter i syfte att analysera prestandan när data från sociala medier används. Resultaten indikerar att den lexikon-baserade metoden presterar bättre, och att borttagning av emojis ökar korrektheten av klassificeringen. |
author |
Pålsson, Andreas Szerszen, Daniel |
author_facet |
Pålsson, Andreas Szerszen, Daniel |
author_sort |
Pålsson, Andreas |
title |
Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal |
title_short |
Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal |
title_full |
Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal |
title_fullStr |
Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal |
title_full_unstemmed |
Sentiment Classification in Social Media : An Analysis of Methods and the Impact of Emoticon Removal |
title_sort |
sentiment classification in social media : an analysis of methods and the impact of emoticon removal |
publisher |
KTH, Skolan för datavetenskap och kommunikation (CSC) |
publishDate |
2016 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187481 |
work_keys_str_mv |
AT palssonandreas sentimentclassificationinsocialmediaananalysisofmethodsandtheimpactofemoticonremoval AT szerszendaniel sentimentclassificationinsocialmediaananalysisofmethodsandtheimpactofemoticonremoval AT palssonandreas attitydanalysisocialamedierenanalysavmetoderochuttryckssymbolersinverkan AT szerszendaniel attitydanalysisocialamedierenanalysavmetoderochuttryckssymbolersinverkan |
_version_ |
1718604338915442688 |