Contribution au résumé automatique multi-documents

Que ce soit pour des professionnels qui doivent prendre connaissance du contenu de documents en un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans disposer du temps nécessaire pour lire l'intégralité des textes qui en traitent, le résumé est une aide contex...

Full description

Bibliographic Details
Main Author: Bossard, Aurélien
Language:FRE
Published: Université Paris-Nord - Paris XIII 2010
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00573567
http://tel.archives-ouvertes.fr/docs/00/57/35/67/PDF/contrib_resume_automatique_20082010.pdf
Description
Summary:Que ce soit pour des professionnels qui doivent prendre connaissance du contenu de documents en un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans disposer du temps nécessaire pour lire l'intégralité des textes qui en traitent, le résumé est une aide contextuelle importante. Avec l'augmentation de la masse documentaire disponible électroniquement, résumer des textes automatiquement est devenu un axe de recherche important dans le domaine du traitement automatique de la langue. La présente thèse propose une méthode de résumé automatique multi-documents fondée sur une classification des phrases à résumer en classes sémantiques. Cette classification nous permet d'identifier les phrases qui présentent des éléments d'informations similaires, et ainsi de supprimer efficacement toute redondance du résumé généré. Cette méthode a été évaluée sur la tâche "résumé d'opinions issues de blogs" de la campagne d'évaluation TAC 2008 et la tâche "résumé incrémental de dépêches" des campagnes TAC 2008 et TAC 2009. Les résultats obtenus sont satisfaisants, classant notre méthode dans le premier quart des participants. Nous avons également proposé d'intégrer la structure des dépêches à notre système de résumé automatique afin d'améliorer la qualité des résumés qu'il génère. Pour finir, notre méthode de résumé a fait l'objet d'une intégration à un système applicatif visant à aider un possesseur de corpus à visualiser les axes essentiels et à en retirer automatiquement les informations importantes.