Summary: | Ingeniero Civil en Computación === La masividad del uso de las redes sociales ha crecido explosivamente en los últimos años.
Resulta interesante conocer la opinión que expresan los usuarios en Twitter para realizar
estudios de mercado, popularidad de marcas, candidatos presidenciales, etc. Este trabajo
tiene por objetivo desarrollar un software que permita hacer análisis de opinión en Twitter.
Este software se utilizó para estudiar la opinión sobre los candidatos a presidente en el año
2013 en Chile.
Se estudiaron dos técnicas utilizadas para obtener el sentimiento asociado a un texto:
Método Estadístico y Método Ontológico. El primer método requiere de un gran volumen de
datos (textos de los que se conoce si expresan una opinión positiva o negativa) para entrenar
el algoritmo. Se eligió el método ontológico, para el que se construyen manualmente reglas
para identificar el sentimiento. Para aplicar estas reglas, se procesa el texto libre usando la
librería FreeLing, que construye un árbol de dependencia de las palabras que componen el
texto. Dicho árbol permite agrupar el sujeto con los correspondientes adjetivos, verbos, etc
de las oraciones. La ontología construida consiste en patrones detectables en los arboles de
dependencia, con palabras claves que pueden ir en las distintas posiciones del patrón. Hubo
problemas con la librería FreeLing que no procesa correctamente texto mal escrito, como es
el caso típico de los Tweets. Se tuvo que hacer un preprocesamiento al texto para ayudar
a FreeLing a procesar el texto. Al hacer el análisis de los Tweets de los 7 días anteriores a
la segunda vuelta, se obtuvo una popularidad del 61% para Bachelet (obtuvo 62% en las
elecciones) y un 39% para Matthei (38% en las elecciones), resultado que también es cercano
a las estimaciones de Brandmetrics.
Otra funcionalidad desarrollada es la identificación de la posición geográfica del usuario,
y por lo tanto sus Tweets, a partir del dato que él indica en el perfil de usuario. Este es
un campo de texto libre. El texto se trata de calzar con una serie de expresiones regulares,
que están asociadas con las regiones de Chile. Se validó la técnica desarrollada comparando
los resultados obtenidos con los datos por GPS para aquellos Tweets para los que estaban
disponibles, obteniendo cerca de un 90% de acierto. Sin embargo, sólo a alrededor de la mitad
de los Tweets se les puede identificar la localidad usando esta técnica, lo que de todas formas
es mejor que cerca del 2% de los Tweets que tienen la información del GPS.
Se analizó también el uso de Twitter en función de la hora del día, observando la máxima
actividad en la noche, durante y después de los noticieros.
|