Evaluation of Potential Spanish Text Markers on Social Posts as Features for Polarity Classification

Abstract: This work describes the identification and evaluation process of potential text markers for sentiment analysis. Evaluation of the markers and its use as part of the feature extraction process from plain text that is needed for sentiment analysis is presented. Evaluation of text marker ob...

Full description

Bibliographic Details
Main Authors: Jorge Antonio Leoni de León, Edgar Casasola Murillo, Gabriela Marín Raventós
Format: Article
Language:English
Published: Centro Latinoamericano de Estudios en Informática 2018-04-01
Series:CLEI Electronic Journal
Online Access:http://www.clei.org/cleiej-beta/index.php/cleiej/article/view/11
Description
Summary:Abstract: This work describes the identification and evaluation process of potential text markers for sentiment analysis. Evaluation of the markers and its use as part of the feature extraction process from plain text that is needed for sentiment analysis is presented. Evaluation of text marker obtained as a result of systematic analysis from a corpus over a second one allowed us to identify that emphasized positive words are strong indicators for positive text. The second corpus allowed us to evaluate the relation between the polarity of emphasized words and the text they appear in. Evaluation of the markers for polarity detection task in combination with a polarized dictionary produced polarity classification average precision of 56% using only three markers. This are promising results compared to the top 69% obtained using more features and specialized dictionaries for the same task.  Spanish Abstract: Este trabajo describe el proceso de identificación y evaluación de posibles marcadores de texto para análisis de sentimiento. Se presenta la evaluación de los marcadores y su uso como parte del proceso de extracción de características para análisis de sentimiento. La evaluación de los marcadores de texto que obtenidos como resultado del análisis sistemático de un corpus sobre un segundo corpus permitió identificar que las palabras positivas con énfasis son fuertes indicadores para identificación de texto positivo. El segundo corpus nos permitió evaluar la relación existente entre la polaridad de las palabras con énfasis y el texto en que aparecen. La evaluación de los marcadores en combinación con un diccionario de polaridad permitieron obtener una precisión del 56% usando solo tres marcadores. Este es un resultado prometedor si se compara con el 69% que se logra obtener para la misma tarea con un número mayor de características y varios diccionarios especializados.
ISSN:0717-5000