Méthodes par abstraction et extraction pour le résumé de conversations orales issues de centres d’appels téléphoniques

Le résumé automatique de document repose généralement sur des méthodes par extraction qui sélectionnent dans le texte des passages pertinents et les juxtaposent pour former un résumé. Ces méthodes sont peu adaptées à la problématique du résumé de conversations orales de part la nature spontanée de c...

Full description

Bibliographic Details
Main Author: Trione, Jérémy
Other Authors: Aix-Marseille
Language:fr
Published: 2017
Subjects:
.
004
Online Access:http://www.theses.fr/2017AIXM0175/document
Description
Summary:Le résumé automatique de document repose généralement sur des méthodes par extraction qui sélectionnent dans le texte des passages pertinents et les juxtaposent pour former un résumé. Ces méthodes sont peu adaptées à la problématique du résumé de conversations orales de part la nature spontanée de celles-ci et l’importance de l’interaction entre les locuteurs. En ne sélectionnant que certains passages, les résumés par extraction ne contiennent qu’un verbatim de ce qui a été dit, et non pas une description synthétique de ce qui s’est passé lors de la conversation. C'est pourquoi des approche abstractives basées sur la détection de concepts permettrait de palier ces difficultés.Dans un premier temps nous testons et analysons des méthodes de résumés par extraction appliquées à des données orales. Puis nous étudions l'intérêt de l'utilisation de modèles sémantiques dans la tâche de résumé automatique. Enfin nous proposons une méthode de résumé à base de patrons.Les méthodes de résumé par remplissage de patrons ont montré leur intérêt dans des domaines spécifiques pour le résumé automatique de texte. Dans notre cas, elles permettent de traiter du problème de différence de genre entre les données source (transcriptions de conversations) et la forme des résumés à générer (narration synthétique). Toutefois, elles nécessitent l’écriture manuelle de patrons de résumés et l’annotation manuelle de quantités de données source en concepts à détecter pour remplir ces patrons. === The automatic summarization is generally based on extractive methods that select relevant sentences from the source document and merge them to create a summary. These methods are not really adapted to the problem of the summary for the spoken conversations because of the spontaneous nature of these dialogs and the importance of the interactions between the speakers. By selecting only a few sentences, the final summary will contain only one verbatim of what has been said, and not a synthetic description of what happened during the conversation. This is why abstractive approaches based on concepts detection would be able to overcome those difficulties.First, we test and analyze the extractive methods used on spoken data. Then we study the interest if using semantic models in the automatic summarization task. Finally, we propose a method of summay based on patterns.Filling patterns methods have shown their interest in specific areas for automatic text summary. In our case, It allows to deal with the difference in spoken data document style (transcripts of conversations) and the nature if the summaries to be generated (synthetic narration). However, it requires manual writing of patterns and manual annotations of quantities of source data into concepts to be detected to fill these patterns.