Exploration d'approches statistiques pour le résumé automatique de texte

Un résumé est un texte reformulé dans un espace plus réduit. Il doit exprimer avec un minimum de mots le contenu essentiel d'un document. Son but est d'aider le lecteur à repérer les informations qui peuvent l'intéresser sans pour autant devoir lire le document en entier. Mais pourquo...

Full description

Bibliographic Details
Main Author:	Boudin, Florian
Language:	FRE
Published:	Université d'Avignon 2008
Subjects:	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Traitement Automatique du Langage Naturel Résumé Automatique Méthodes Statistiques Chimie Organique Maximal Marginal Relevance Document Understanding Conference Text Analysis Conference
Online Access:	http://tel.archives-ouvertes.fr/tel-00419469 http://tel.archives-ouvertes.fr/docs/00/41/94/69/PDF/thesis_florian_boudin.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00419469
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004194692013-01-07T18:16:52Z http://tel.archives-ouvertes.fr/tel-00419469 http://tel.archives-ouvertes.fr/docs/00/41/94/69/PDF/thesis_florian_boudin.pdf Exploration d'approches statistiques pour le résumé automatique de texte Boudin, Florian [INFO:INFO_HC] Computer Science/Human-Computer Interaction Traitement Automatique du Langage Naturel Résumé Automatique Méthodes Statistiques Chimie Organique Maximal Marginal Relevance Document Understanding Conference Text Analysis Conference Un résumé est un texte reformulé dans un espace plus réduit. Il doit exprimer avec un minimum de mots le contenu essentiel d'un document. Son but est d'aider le lecteur à repérer les informations qui peuvent l'intéresser sans pour autant devoir lire le document en entier. Mais pourquoi avons-nous tant besoin de résumés? Simplement parce que nous ne disposons pas d'assez de temps et d'énergie pour tout lire. La masse d'information textuelle sous forme électronique ne cesse d'augmenter, que ce soit sur Internet ou dans les réseaux des entreprises. Ce volume croissant de textes disponibles rend difficile l'accès à l'information désirée sans l'aide d'outils spécifiques. Produire un résumé est une tâche très complexe car elle nécessite des connaissances linguistiques ainsi que des connaissances du monde qui restent très difficiles à incorporer dans un système automatique. Dans cette thèse de doctorat, nous explorons la problématique du résumé automatique par le biais de trois méthodes statistiques permettant chacune la production de résumés répondant à une tâche différente.<br /><br />Nous proposons une première approche pour la production de résumé dans le domaine spécialisé de la Chimie Organique. Un prototype nommé YACHS a été déve- loppé pour démontrer la viabilité de notre approche. Ce système est composé de deux modules, le premier applique un pré-traitement linguistique particulier afin de tenir compte de la spécificité des documents de Chimie Organique tandis que le second sélectionne et assemble les phrases à partir de critères statistiques dont certains sont spécifiques au domaine. Nous proposons ensuite une approche répondant à la problématique du résumé automatique multi-documents orienté par une thématique. Nous détaillons les adaptations apportées au système de résumé générique Cortex ainsi que les résultats observés sur les données des campagnes d'évaluation DUC. Les résultats obtenus par la soumission du LIA lors des participations aux campagnes d'évaluations DUC 2006 et DUC 2007 sont discutés. Nous proposons finalement deux méthodes pour la génération de résumés mis-à-jour. La première approche dite de maximisation- minimisation a été évaluée par une participation à la tâche pilote de DUC 2007. La seconde méthode est inspirée de Maximal Marginal Relevance (MMR), elle a été évaluée par plusieurs soumissions lors de la campagne TAC 2008. 2008-12-05 FRE PhD thesis Université d'Avignon
collection	NDLTD
language	FRE
sources	NDLTD
topic	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Traitement Automatique du Langage Naturel Résumé Automatique Méthodes Statistiques Chimie Organique Maximal Marginal Relevance Document Understanding Conference Text Analysis Conference
spellingShingle	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Traitement Automatique du Langage Naturel Résumé Automatique Méthodes Statistiques Chimie Organique Maximal Marginal Relevance Document Understanding Conference Text Analysis Conference Boudin, Florian Exploration d'approches statistiques pour le résumé automatique de texte
description	Un résumé est un texte reformulé dans un espace plus réduit. Il doit exprimer avec un minimum de mots le contenu essentiel d'un document. Son but est d'aider le lecteur à repérer les informations qui peuvent l'intéresser sans pour autant devoir lire le document en entier. Mais pourquoi avons-nous tant besoin de résumés? Simplement parce que nous ne disposons pas d'assez de temps et d'énergie pour tout lire. La masse d'information textuelle sous forme électronique ne cesse d'augmenter, que ce soit sur Internet ou dans les réseaux des entreprises. Ce volume croissant de textes disponibles rend difficile l'accès à l'information désirée sans l'aide d'outils spécifiques. Produire un résumé est une tâche très complexe car elle nécessite des connaissances linguistiques ainsi que des connaissances du monde qui restent très difficiles à incorporer dans un système automatique. Dans cette thèse de doctorat, nous explorons la problématique du résumé automatique par le biais de trois méthodes statistiques permettant chacune la production de résumés répondant à une tâche différente.<br /><br />Nous proposons une première approche pour la production de résumé dans le domaine spécialisé de la Chimie Organique. Un prototype nommé YACHS a été déve- loppé pour démontrer la viabilité de notre approche. Ce système est composé de deux modules, le premier applique un pré-traitement linguistique particulier afin de tenir compte de la spécificité des documents de Chimie Organique tandis que le second sélectionne et assemble les phrases à partir de critères statistiques dont certains sont spécifiques au domaine. Nous proposons ensuite une approche répondant à la problématique du résumé automatique multi-documents orienté par une thématique. Nous détaillons les adaptations apportées au système de résumé générique Cortex ainsi que les résultats observés sur les données des campagnes d'évaluation DUC. Les résultats obtenus par la soumission du LIA lors des participations aux campagnes d'évaluations DUC 2006 et DUC 2007 sont discutés. Nous proposons finalement deux méthodes pour la génération de résumés mis-à-jour. La première approche dite de maximisation- minimisation a été évaluée par une participation à la tâche pilote de DUC 2007. La seconde méthode est inspirée de Maximal Marginal Relevance (MMR), elle a été évaluée par plusieurs soumissions lors de la campagne TAC 2008.
author	Boudin, Florian
author_facet	Boudin, Florian
author_sort	Boudin, Florian
title	Exploration d'approches statistiques pour le résumé automatique de texte
title_short	Exploration d'approches statistiques pour le résumé automatique de texte
title_full	Exploration d'approches statistiques pour le résumé automatique de texte
title_fullStr	Exploration d'approches statistiques pour le résumé automatique de texte
title_full_unstemmed	Exploration d'approches statistiques pour le résumé automatique de texte
title_sort	exploration d'approches statistiques pour le résumé automatique de texte
publisher	Université d'Avignon
publishDate	2008
url	http://tel.archives-ouvertes.fr/tel-00419469 http://tel.archives-ouvertes.fr/docs/00/41/94/69/PDF/thesis_florian_boudin.pdf
work_keys_str_mv	AT boudinflorian explorationdapprochesstatistiquespourleresumeautomatiquedetexte
_version_	1716451473889427456

Exploration d'approches statistiques pour le résumé automatique de texte

Similar Items