Personal information prediction from written texts

La détection de la paternité textuelle est un domaine de recherche qui existe depuis les années 1960. Il consiste à prédire l’auteur d’un texte en se basant sur d’autres textes dont les auteurs sont connus. Pour faire cela, plusieurs traits sur le style d’écriture et le contenu sont extraits. Pour c...

Full description

Bibliographic Details
Main Author: Bibi, Khalil
Other Authors: Aïmeur, Esma
Language:English
Published: 2021
Subjects:
Online Access:http://hdl.handle.net/1866/24308
id ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-24308
record_format oai_dc
spelling ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-243082021-01-24T05:18:31Z Personal information prediction from written texts Bibi, Khalil Aïmeur, Esma Langlais, Philippe Authorship attribution natural language processing machine learning deep learning privacy Détection de la paternité textuelle Traitement automatique des langues naturelles Apprentissage machine Apprentissage profond Vie privée Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984) La détection de la paternité textuelle est un domaine de recherche qui existe depuis les années 1960. Il consiste à prédire l’auteur d’un texte en se basant sur d’autres textes dont les auteurs sont connus. Pour faire cela, plusieurs traits sur le style d’écriture et le contenu sont extraits. Pour ce mémoire, deux sous-problèmes de détection de la paternité textuelle ont été traités : la prédiction du genre et de l’âge de l’auteur. Des données collectées de blogs en ligne ont été utilisées pour faire cela. Dans ce travail, plusieurs traits (features) textuels ont été comparé en utilisant des méthodes d’apprentissage automatique. De même, des méthodes d’apprentissage profond ont été appliqués. Pour la tâche de classification du genre, les meilleurs résultats ont été obtenus en appliquant un système de vote majoritaire sur la prédiction d’autres modèles. Pour la classification d’âge, les meilleurs résultats ont été obtenu en utilisant un classificateur entrainé sur TF-IDF. Authorship Attribution (AA) is a field of research that exists since the 60s. It consists of identifying the author of a certain text based on texts with known authors. This is done by extracting features about the writing style and the content of the text. In this master thesis, two sub problems of AA were treated: gender and age classification using a corpus collected from online blogs. In this work, several features were compared using several feature-based algorithms. As well as deep learning methods. For the gender classification task, the best results are the ones obtained by a majority vote system over the outputs of several classifiers. For the age classification task, the best result was obtained using classifier trained over TFIDF. 2021-01-22T13:24:10Z NO_RESTRICTION 2021-01-22T13:24:10Z 2020-06-04 2020-03 thesis thèse http://hdl.handle.net/1866/24308 eng
collection NDLTD
language English
sources NDLTD
topic Authorship attribution
natural language processing
machine learning
deep learning
privacy
Détection de la paternité textuelle
Traitement automatique des langues naturelles
Apprentissage machine
Apprentissage profond
Vie privée
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
spellingShingle Authorship attribution
natural language processing
machine learning
deep learning
privacy
Détection de la paternité textuelle
Traitement automatique des langues naturelles
Apprentissage machine
Apprentissage profond
Vie privée
Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
Bibi, Khalil
Personal information prediction from written texts
description La détection de la paternité textuelle est un domaine de recherche qui existe depuis les années 1960. Il consiste à prédire l’auteur d’un texte en se basant sur d’autres textes dont les auteurs sont connus. Pour faire cela, plusieurs traits sur le style d’écriture et le contenu sont extraits. Pour ce mémoire, deux sous-problèmes de détection de la paternité textuelle ont été traités : la prédiction du genre et de l’âge de l’auteur. Des données collectées de blogs en ligne ont été utilisées pour faire cela. Dans ce travail, plusieurs traits (features) textuels ont été comparé en utilisant des méthodes d’apprentissage automatique. De même, des méthodes d’apprentissage profond ont été appliqués. Pour la tâche de classification du genre, les meilleurs résultats ont été obtenus en appliquant un système de vote majoritaire sur la prédiction d’autres modèles. Pour la classification d’âge, les meilleurs résultats ont été obtenu en utilisant un classificateur entrainé sur TF-IDF. === Authorship Attribution (AA) is a field of research that exists since the 60s. It consists of identifying the author of a certain text based on texts with known authors. This is done by extracting features about the writing style and the content of the text. In this master thesis, two sub problems of AA were treated: gender and age classification using a corpus collected from online blogs. In this work, several features were compared using several feature-based algorithms. As well as deep learning methods. For the gender classification task, the best results are the ones obtained by a majority vote system over the outputs of several classifiers. For the age classification task, the best result was obtained using classifier trained over TFIDF.
author2 Aïmeur, Esma
author_facet Aïmeur, Esma
Bibi, Khalil
author Bibi, Khalil
author_sort Bibi, Khalil
title Personal information prediction from written texts
title_short Personal information prediction from written texts
title_full Personal information prediction from written texts
title_fullStr Personal information prediction from written texts
title_full_unstemmed Personal information prediction from written texts
title_sort personal information prediction from written texts
publishDate 2021
url http://hdl.handle.net/1866/24308
work_keys_str_mv AT bibikhalil personalinformationpredictionfromwrittentexts
_version_ 1719374352495935488