Generalization of cyberbullying traces

De nos jours, la cyberintimidation est un problème courant dans les communautés en ligne. Filtrer automatiquement ces messages de cyberintimidation des conversations en ligne c’est avéré être un défi qui a mené à la création de plusieurs ensembles de données, dont plusieurs disponibles comme ressour...

Full description

Bibliographic Details
Main Author: Larochelle, Marc-André
Other Authors: Khoury, Richard
Format: Dissertation
Language:English
Published: Université Laval 2020
Subjects:
Online Access:http://hdl.handle.net/20.500.11794/67899
Description
Summary:De nos jours, la cyberintimidation est un problème courant dans les communautés en ligne. Filtrer automatiquement ces messages de cyberintimidation des conversations en ligne c’est avéré être un défi qui a mené à la création de plusieurs ensembles de données, dont plusieurs disponibles comme ressources pour l’entraînement de classificateurs. Toutefois, sans consensus sur la définition de la cyberintimidation, chacun des ensembles de données se retrouve à documenter différentes formes de comportements. Cela rend difficile la comparaison des performances obtenues par de classificateurs entraînés sur de différents ensembles de données, ou même l’application d’un de ces classificateurs à un autre ensemble de données. Dans ce mémoire, on utilise une variété de ces ensembles de données afin d’explorer les différentes définitions, ainsi que l’impact que cela occasionne sur le langage utilisé. Par la suite, on explore la portabilité d’un classificateur entraîné sur un ensemble de données vers un autre ensemble, nous donnant ainsi une meilleure compréhension de la généralisation des classificateurs. Finalement, on étudie plusieurs architectures d’ensemble de modèles, qui par la combinaison de ces différents classificateurs, nous permet de mieux comprendre les interactions des différentes définitions. Nos résultats montrent qu’il est possible d’obtenir une meilleure généralisation en combinant tous les ensembles de données en un seul ensemble de données plutôt que d’utiliser un ensemble de modèles composé de plusieurs classificateurs, chacun entraîné individuellement sur un ensemble de données différent. === Cyberbullying is a common problem in today’s ubiquitous online communities. Automatically filtering it out of online conversations has proven a challenge, and the efforts have led to the creation of many different datasets, which are distributed as resources to train classifiers. However, without a consensus for the definition of cyberbullying, each of these datasets ends up documenting a different form of the behavior. This makes it difficult to compare the results of classifiers trained on different datasets, or to apply one such classifier on a different dataset. In this thesis, we will use a variety of these datasets to explore the differences in their definitions of cyberbullying and the impact it has on the language used in the messages. We will then explore the portability of a classifier trained on one dataset to another in order to gain insight on the generalization power of classifiers trained from each of them. Finally, we will study various architectures of ensemble models combining these classifiers in order to understand how they interact with each other. Our results show that by combining all datasets together into a single bigger one, we can achieve a better generalization than by using an ensemble model of individual classifiers trained on each dataset.