Etude de la paraphrase sous-phrastique en traitement automatique des langues

La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu'une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même significati...

Full description

Bibliographic Details
Main Author: Bouamor, Houda
Language:fra
Published: Université Paris Sud - Paris XI 2012
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00717702
http://tel.archives-ouvertes.fr/docs/00/71/77/02/PDF/VA2_BOUAMOR_HOUDA_11062012.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00717702
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-007177022014-10-08T03:28:31Z http://tel.archives-ouvertes.fr/tel-00717702 2012PA112100 http://tel.archives-ouvertes.fr/docs/00/71/77/02/PDF/VA2_BOUAMOR_HOUDA_11062012.pdf Etude de la paraphrase sous-phrastique en traitement automatique des langues Bouamor, Houda [INFO:INFO_OH] Computer Science/Other [INFO:INFO_OH] Informatique/Autre Corpus monolingues Acquisition de paraphrase Classification automatique de paraphrase Typologie de paraphrase La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu'une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même signification dans leur contexte respectif. Capturer automatiquement des équivalences sémantiques entre des unités de texte est une tâche complexe mais qui s'avère indispensable dans de nombreux contextes. L'acquisition a priori de listes d'équivalences met à disposition des ressources utiles pour, par exemple, améliorer le repérage d'une réponse à une question, autoriser des formulations différentes en évaluation de la traduction automatique, ou encore aider des auteurs à trouver des formulations plus adaptées. Dans cette thèse, nous proposons une étude détaillée de la tâche d'acquisition de paraphrases sous-phrastiques à partir de paires d'énoncés sémantiquement liés. Nous démontrons empiriquement que les corpus parallèles monolingues, bien qu'extrêmement rares, constituent le type de ressource le plus adapté pour ce genre d'étude. Nos expériences mettent en jeu cinq techniques d'acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d'améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique à maximum d'entropie bi-classe. Un résultat important de notre étude est l'identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français. Nous examinons également dans cette thèse l'impact de la langue, du type du corpus et la comparabilité des paires des énoncés utilisés sur la tâche d'acquisition de paraphrases sous- phrastiques. Nous présentons le résultat d'une analyse de la performance des différentes méthodes testées en fonction des difficultés d'alignement des paires de paraphrases d'énoncés. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractéristiques des paraphrases trouvées dans les différents types de corpus étudiés ainsi que celles qui défient les approches actuelles d'identification automatique. 2012-06-11 fra PhD thesis Université Paris Sud - Paris XI
collection NDLTD
language fra
sources NDLTD
topic [INFO:INFO_OH] Computer Science/Other
[INFO:INFO_OH] Informatique/Autre
Corpus monolingues
Acquisition de paraphrase
Classification automatique de paraphrase
Typologie de paraphrase
spellingShingle [INFO:INFO_OH] Computer Science/Other
[INFO:INFO_OH] Informatique/Autre
Corpus monolingues
Acquisition de paraphrase
Classification automatique de paraphrase
Typologie de paraphrase
Bouamor, Houda
Etude de la paraphrase sous-phrastique en traitement automatique des langues
description La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu'une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même signification dans leur contexte respectif. Capturer automatiquement des équivalences sémantiques entre des unités de texte est une tâche complexe mais qui s'avère indispensable dans de nombreux contextes. L'acquisition a priori de listes d'équivalences met à disposition des ressources utiles pour, par exemple, améliorer le repérage d'une réponse à une question, autoriser des formulations différentes en évaluation de la traduction automatique, ou encore aider des auteurs à trouver des formulations plus adaptées. Dans cette thèse, nous proposons une étude détaillée de la tâche d'acquisition de paraphrases sous-phrastiques à partir de paires d'énoncés sémantiquement liés. Nous démontrons empiriquement que les corpus parallèles monolingues, bien qu'extrêmement rares, constituent le type de ressource le plus adapté pour ce genre d'étude. Nos expériences mettent en jeu cinq techniques d'acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d'améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique à maximum d'entropie bi-classe. Un résultat important de notre étude est l'identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français. Nous examinons également dans cette thèse l'impact de la langue, du type du corpus et la comparabilité des paires des énoncés utilisés sur la tâche d'acquisition de paraphrases sous- phrastiques. Nous présentons le résultat d'une analyse de la performance des différentes méthodes testées en fonction des difficultés d'alignement des paires de paraphrases d'énoncés. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractéristiques des paraphrases trouvées dans les différents types de corpus étudiés ainsi que celles qui défient les approches actuelles d'identification automatique.
author Bouamor, Houda
author_facet Bouamor, Houda
author_sort Bouamor, Houda
title Etude de la paraphrase sous-phrastique en traitement automatique des langues
title_short Etude de la paraphrase sous-phrastique en traitement automatique des langues
title_full Etude de la paraphrase sous-phrastique en traitement automatique des langues
title_fullStr Etude de la paraphrase sous-phrastique en traitement automatique des langues
title_full_unstemmed Etude de la paraphrase sous-phrastique en traitement automatique des langues
title_sort etude de la paraphrase sous-phrastique en traitement automatique des langues
publisher Université Paris Sud - Paris XI
publishDate 2012
url http://tel.archives-ouvertes.fr/tel-00717702
http://tel.archives-ouvertes.fr/docs/00/71/77/02/PDF/VA2_BOUAMOR_HOUDA_11062012.pdf
work_keys_str_mv AT bouamorhouda etudedelaparaphrasesousphrastiqueentraitementautomatiquedeslangues
_version_ 1716716161811349504