Summary: | As plataformas de Mídias Sociais se tornaram um meio essencial para a disponibilização de informações. Dentre elas, o Twitter tem se destacado, devido ao grande volume de mensagens que são compartilhadas todos os dias, principalmente mencionando eventos ao redor do mundo. Tais mensagens são uma importante fonte de informação e podem ser utilizadas em diversas aplicações. Contudo, a classificação de texto em tweets é uma tarefa não trivial. Além disso, não há um consenso quanto à quais tarefas devem ser executadas para Identificação e Classificação de Eventos em tweets, uma vez que as abordagens existentes trabalham com tipos específicos de eventos e determinadas suposições, que dificultam a reprodução e a comparação dessas abordagens em eventos de natureza distinta. Neste trabalho, nós elaboramos um framework para a classificação de eventos de natureza distinta. O framework possui os seguintes elementos chave: a) enriquecimento externo a partir da exploração de páginas web relacionadas, como uma forma de complementar a extração de features conceituais do conteúdo dos tweets; b) enriquecimento semântico utilizando recursos da Linked Open Data cloud para acrescentar features semânticas relacionadas; e c) técnica de poda para selecionar as features semânticas mais discriminativas Nós avaliamos o framework proposto através de um vasto conjunto de experimentos, que incluem: a) sete eventos alvos de natureza distinta; b) diferentes combinações das features conceituais propostas (i.e. entidades, vocabulário, e a combinação de ambos); c) estratégias distintas para a extração de features (i.e. a partir do conteúdo dos tweets e das páginas web); d) diferentes métodos para a seleção das features semânticas mais relevantes de acordo com o domínio (i.e. poda, seleção de features, e a combinação de ambos); e) dois algoritmos de classificação. Nós também comparamos o desempenho do framework em relação a outro método utilização para o enriquecimento contextual, o qual tem como base word embeddings. Os resultados mostraram as vantagens da utilização do framework proposto e que a nossa solução é factível e generalizável, dando suporte a classificação de diferentes tipos de eventos. === Social Media platforms have become key as a means of spreading information, opinions or awareness about real-world events. Twitter stands out due to the huge volume of messages about all sorts of topics posted every day. Such messages are an important source of useful information about events, presenting many useful applications (e.g. the detection of breaking news, real-time awareness, updates about events). However, text classification on Twitter is by no means a trivial task that can be handled by conventional Natural Language Processing techniques. In addition, there is no consensus about the definition of which kind of tasks are executed in the Event Identification and Classification in tweets, since existing approaches often focus on specific types of events, based on specific assumptions, which makes it difficult to reproduce and compare these approaches in events of distinct natures. In this work, we aim at building a unifying framework that is suitable for the classification of events of distinct natures. The framework has as key elements: a) external enrichment using related web pages for extending the conceptual features contained within the tweets; b) semantic enrichment using the Linked Open Data cloud to add related semantic features; and c) a pruning technique that selects the semantic features with discriminative potential We evaluated our proposed framework using a broad experimental setting, that includes: a) seven target events of different natures; b) different combinations of the conceptual features proposed (i.e. entities, vocabulary and their combination); c) distinct feature extraction strategies (i.e. from tweet text and web related documents); d) different methods for selecting the discriminative semantic features (i.e. pruning, feature selection, and their combination); and e) two classification algorithms. We also compared the proposed framework against another kind of contextual enrichment based on word embeddings. The results showed the advantages of using the proposed framework, and that our solution is a feasible and generalizable method to support the classification of distinct event types.
|