Nettoyage de corpus web pour le traitement automatique des langues
Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de brui...
Main Author: | |
---|---|
Other Authors: | |
Language: | fr |
Published: |
2018
|
Subjects: | |
Online Access: | http://www.theses.fr/2018PA080011 |