Summary: | === Throughout the years, humans have developed a complex and intricate system of communication with several means of conveying information that range from books, newspapers and television to, more recently, social media. However, efficiently retrieving and understanding messages from social media for extracting useful information is challenging, especially considering that shorter messages are strongly dependent on context. Users often assume that their social media audience is aware of the associated background and the underlying real world events. This allows them to shorten their messages without compromising the effectiveness of communication. Traditional data mining algorithms do not account for contextual information. We argue that exploiting context could lead to more complete and accurate analyses of social media messages. For this work, therefore, we demonstrate how relevant is contextual information in the successful filtering of messages that are related to a selected subject. We also show that recall rate increases if context is taken into account. Furthermore, we propose methods for filtering relevant messages without resorting only to keywords if the context is known and can be detected. In this dissertation, we propose a novel approach for subject classification of social media messages that considers both textual and extra-textual (or contextual) information. This approach uses a proposed context-enriched language model. Techniques based on concepts of computational linguistics, more specifically in the field of Pragmatics, are employed. For experimentally analyzing the impact of the proposed approach, datasets containing messages about three major American sports (football, baseball and basketball) were used. Results indicate up to 50% improvement in retrieval over text-based approaches due to the use of contextual information. === Ao longo dos anos, humanos desenvolveram um complexo e intricado sistema de comunicação, com diversas maneiras de transmitir informações, que vão de livros, jornais e televisão até, mais recentemente, mídias sociais. No entanto, recuperar eficientemente e entender mensagens de mídias sociais para a extração de informações úteis é desafiador, especialmente considerando que mensagens mais curtas são mais dependentes do contexto. Usuários muitas vezes assumem que o público de suas mídias sociais está ciente do contexto associado e de eventos do mundo real subjacentes. Isso permite que eles encurtem as mensagens sem prejudicar a efetividade da comunicação. Algoritmos tradicionais de mineração de dados não levam em consideração informações contextuais. Consideramos que explorar o contexto pode levar a uma análise mais completa e precisa das mensagens de mídias sociais. Neste trabalho, portanto, é demonstrado o quão relevantes são as informações contextuais na filtragem de mensagens que são relacionadas a um dado assunto (ou tópico). Também é mostrado que a taxa de recuperação aumenta se o contexto for levado em consideração. Além disso, são propostos métodos para filtrar mensagens relevantes sem utilizar apenas palavras-chave se o contexto for conhecido e datectável. Nesta dissertação, propomos uma nova abordagem para classificação de tópicos em mensagens de mídias sociais que considera tanto informações textuais como extra-textuais (ou contextuais). Essa abordagem propõe e utiliza modelo de linguagem enriquecido com contexto. Técnicas baseadas em conceitos de linguística computacional, mais especificamente na área de Pragmática, são utilizadas. Para avaliar experimentalmente o impacto dessas propostas foram utilizados conjuntos de dados contendo mensagens sobre três importantes esportes americanos (futebol americano, baseball e basquete). Resultados indicam uma melhora de até 50% na recuperação de mensagens sobre estratégias baseadas em texto devido à inclusão de informação contextual.
|