Détection d'évènements à partir de Twitter

Nous proposons dans cette thèse un système permettant de déterminer, à partir des données envoyées sur les microblogs, les évènements qui stimulent l’intérêt des utilisateurs durant une période donnée et les dates saillantes de chaque évènement. Étant donné son taux d’utilisation élevé et l’acces...

Full description

Bibliographic Details
Main Author: Dridi, Houssem Eddine
Other Authors: Lapalme, Guy
Language:fr
Published: 2015
Subjects:
NLP
Online Access:http://hdl.handle.net/1866/11413
id ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-11413
record_format oai_dc
spelling ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-114132017-03-17T08:18:06Z Détection d'évènements à partir de Twitter Dridi, Houssem Eddine Lapalme, Guy Twitter hashtags évènement TALN event NLP Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984) Nous proposons dans cette thèse un système permettant de déterminer, à partir des données envoyées sur les microblogs, les évènements qui stimulent l’intérêt des utilisateurs durant une période donnée et les dates saillantes de chaque évènement. Étant donné son taux d’utilisation élevé et l’accessibilité de ses données, nous avons utilisé la plateforme Twitter comme source de nos données. Nous traitons dans ce travail les tweets portant sur la Tunisie dont la plupart sont écrits par des tunisiens. La première tâche de notre système consistait à extraire automatiquement les tweets d’une façon continue durant 67 jours (de 8 février au 15 avril 2012). Nous avons supposé qu’un évènement est représenté par plusieurs termes dont la fréquence augmente brusquement à un ou plusieurs moments durant la période analysée. Le manque des ressources nécessaires pour déterminer les termes (notamment les hashtags) portant sur un même sujet, nous a obligé à proposer des méthodes permettant de regrouper les termes similaires. Pour ce faire, nous avons eu recours à des méthodes phonétiques que nous avons adaptées au mode d’écriture utilisée par les tunisiens, ainsi que des méthodes statistiques. Pour déterminer la validité de nos méthodes, nous avons demandé à des experts, des locuteurs natifs du dialecte tunisien, d’évaluer les résultats retournés par nos méthodes. Ces groupes ont été utilisés pour déterminer le sujet de chaque tweet et/ou étendre les tweets par de nouveaux termes. Enfin, pour sélectionner l'ensemble des évènements (EV), nous nous sommes basés sur trois critères : fréquence, variation et TF-IDF. Les résultats que nous avons obtenus ont montré la robustesse de notre système. In this thesis, we propose a method to highlight users’ concerns from a set of Twitter messages. In particular, we focus on major events that stimulate the user’s interest within a given period. Given its rate of use and accessibility of data, we used Twitter as a source of our data. In this work, we use tweets related to Tunisia, most of them being written by Tunisians. The first task of our system was to continuously extract tweets during 67 days (from February 8th to April 15th, 2012). We assumed that an event is represented by several terms whose frequency sharply increases one or more times during the analyzed period. Due to the lack of resources that allow determining the terms (including hashtags) referring to the same topic, we propose methods that help grouping similar terms. To do this, we used phonetic methods adapted to the way Tunisians write and statistical methods. To determine the validity of our methods, we asked the experts, who are native speakers of the Tunisian dialect, to evaluate the results returned by our methods. These clusters are used to determine the subject of each tweet and/or expand the tweets by new terms. Finally, to select the set of events (EV), we relied on three criteria: frequency, variation and TF-IDF. The results that we obtained show the robustness of our system. 2015-03-13T15:38:35Z NO_RESTRICTION 2015-03-13T15:38:35Z 2015-02-18 2014-10 Thèse ou Mémoire numérique / Electronic Thesis or Dissertation http://hdl.handle.net/1866/11413 fr
collection NDLTD
language fr
sources NDLTD
topic Twitter
hashtags
évènement
TALN
event
NLP
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
spellingShingle Twitter
hashtags
évènement
TALN
event
NLP
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
Dridi, Houssem Eddine
Détection d'évènements à partir de Twitter
description Nous proposons dans cette thèse un système permettant de déterminer, à partir des données envoyées sur les microblogs, les évènements qui stimulent l’intérêt des utilisateurs durant une période donnée et les dates saillantes de chaque évènement. Étant donné son taux d’utilisation élevé et l’accessibilité de ses données, nous avons utilisé la plateforme Twitter comme source de nos données. Nous traitons dans ce travail les tweets portant sur la Tunisie dont la plupart sont écrits par des tunisiens. La première tâche de notre système consistait à extraire automatiquement les tweets d’une façon continue durant 67 jours (de 8 février au 15 avril 2012). Nous avons supposé qu’un évènement est représenté par plusieurs termes dont la fréquence augmente brusquement à un ou plusieurs moments durant la période analysée. Le manque des ressources nécessaires pour déterminer les termes (notamment les hashtags) portant sur un même sujet, nous a obligé à proposer des méthodes permettant de regrouper les termes similaires. Pour ce faire, nous avons eu recours à des méthodes phonétiques que nous avons adaptées au mode d’écriture utilisée par les tunisiens, ainsi que des méthodes statistiques. Pour déterminer la validité de nos méthodes, nous avons demandé à des experts, des locuteurs natifs du dialecte tunisien, d’évaluer les résultats retournés par nos méthodes. Ces groupes ont été utilisés pour déterminer le sujet de chaque tweet et/ou étendre les tweets par de nouveaux termes. Enfin, pour sélectionner l'ensemble des évènements (EV), nous nous sommes basés sur trois critères : fréquence, variation et TF-IDF. Les résultats que nous avons obtenus ont montré la robustesse de notre système. === In this thesis, we propose a method to highlight users’ concerns from a set of Twitter messages. In particular, we focus on major events that stimulate the user’s interest within a given period. Given its rate of use and accessibility of data, we used Twitter as a source of our data. In this work, we use tweets related to Tunisia, most of them being written by Tunisians. The first task of our system was to continuously extract tweets during 67 days (from February 8th to April 15th, 2012). We assumed that an event is represented by several terms whose frequency sharply increases one or more times during the analyzed period. Due to the lack of resources that allow determining the terms (including hashtags) referring to the same topic, we propose methods that help grouping similar terms. To do this, we used phonetic methods adapted to the way Tunisians write and statistical methods. To determine the validity of our methods, we asked the experts, who are native speakers of the Tunisian dialect, to evaluate the results returned by our methods. These clusters are used to determine the subject of each tweet and/or expand the tweets by new terms. Finally, to select the set of events (EV), we relied on three criteria: frequency, variation and TF-IDF. The results that we obtained show the robustness of our system.
author2 Lapalme, Guy
author_facet Lapalme, Guy
Dridi, Houssem Eddine
author Dridi, Houssem Eddine
author_sort Dridi, Houssem Eddine
title Détection d'évènements à partir de Twitter
title_short Détection d'évènements à partir de Twitter
title_full Détection d'évènements à partir de Twitter
title_fullStr Détection d'évènements à partir de Twitter
title_full_unstemmed Détection d'évènements à partir de Twitter
title_sort détection d'évènements à partir de twitter
publishDate 2015
url http://hdl.handle.net/1866/11413
work_keys_str_mv AT dridihoussemeddine detectiondevenementsapartirdetwitter
_version_ 1718426204256600064