Nettoyage de corpus web pour le traitement automatique des langues

Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de brui...

Full description

Bibliographic Details
Main Author: Manad, Otman
Other Authors: Paris 8
Language:fr
Published: 2018
Subjects:
Online Access:http://www.theses.fr/2018PA080011