Nettoyage de corpus web pour le traitement automatique des langues
Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de brui...
Main Author: | Manad, Otman |
---|---|
Other Authors: | Paris 8 |
Language: | fr |
Published: |
2018
|
Subjects: | |
Online Access: | http://www.theses.fr/2018PA080011 |
Similar Items
-
Construction de corpus généraux et spécialisés à partir du Web (Ad hoc and general-purpose corpus construction from web sources)
by: Barbaresi, Adrien
Published: (2015) -
Corpulyzer: A Novel Framework for Building Low Resource Language Corpora
by: Bilal Tahir, et al.
Published: (2021-01-01) -
SInFo – Structure-Driven Incremental Forum Crawler That Optimizes User-Generated Content Retrieval
by: Milos Pavkovic, et al.
Published: (2019-01-01) -
Accents régionaux en français : perception, analyse et modélisation à partir de grands corpus
by: Woehrling, Cécile
Published: (2009) -
Traitements formels et sémantiques des échanges et des documents textuels liés à des activités collaboratives
by: Kalitvianski, Ruslan
Published: (2018)