Summary: | Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent. === Corpora are the main material of computer linguistics and natural language processing. Not many languages have corpora made from web resources (forums, blogs, etc.), even those that do not have other resources. Web resources contain lots of noise (menus, ads, etc.). Filtering boilerplate and repetitive data requires a large-scale manual cleaning by the researcher.This thesis presents an automatic system that construct web corpus with a low level of noise.It consists of three modules : (a) one for building corpora in any language and any type of data, intended to be collaborative and preserving corpus history; (b) one for crawling web forums and blogs; (c) one for extracting relevant data using clustering techniques with different distances, from the structure of web page.The system is evaluated in terms of the efficacy of noise filtering and of computing time. Our experiments, made on four languages, are evaluated using our own gold standard corpus. To measure quality, we use recall, precision and F-measure. Feature-distance and Jaro distance give the best results, but not in the same contexts, feature-distance having the best average quality.We compare our method with three methods dealing with the same problem, Nutch, BootCat and JusText. The performance of our system is better as regards the extraction quality, even if for computing time, Nutch and BootCat dominate.
|