Similarité statistique pour le CBR textuel

Les courriers électroniques sont devenus au cours des dernières années un moyen de communication privilégié. Leur nombre atteint des niveaux si élevés que leur manipulation par les entreprises devient difficile manuellement et requiert des méthodes automatiques. Les systèmes de suivi automatique per...

Full description

Bibliographic Details
Main Author: Miry, Erwan
Other Authors: Lamontagne, Luc D.
Format: Dissertation
Language:French
Published: Université Laval 2007
Subjects:
Online Access:http://hdl.handle.net/20.500.11794/19736
id ndltd-LAVAL-oai-corpus.ulaval.ca-20.500.11794-19736
record_format oai_dc
collection NDLTD
language French
format Dissertation
sources NDLTD
topic QA 76.05 UL 2007
Raisonnement par cas
Courrier électronique
spellingShingle QA 76.05 UL 2007
Raisonnement par cas
Courrier électronique
Miry, Erwan
Similarité statistique pour le CBR textuel
description Les courriers électroniques sont devenus au cours des dernières années un moyen de communication privilégié. Leur nombre atteint des niveaux si élevés que leur manipulation par les entreprises devient difficile manuellement et requiert des méthodes automatiques. Les systèmes de suivi automatique permettent un traitement des messages et une augmentation de la facilité pour les utilisateurs qui désirent créer un courriel en réponse à une requête, à partir de messages archivés dans la bibliothèque de l’entreprise. Un des problèmes majeurs dans ce type d’application est la sélection de courriers électroniques archivés pertinents à la requête nouvellement soumise : il est nécessaire que le texte retourné par le système qui servira de base à la rédaction d’une réponse, soit en corrélation avec le sujet de la question posée. La recherche de la similarité entre les textes est donc une des principales tâches de ce système. L’objectif de nos travaux se situe toutefois à un niveau supérieur à la simple recherche de similarité entre courriers électroniques; nous avons comme objectif d’évaluer la similarité entre des textes comportant peu de mots. Pour cela, notre étude comporte deux parties distinctes: la recherche de similarités entre des mots afin d’élargir le vocabulaire d’un texte, e le calcul de la similarité entre les documents. Notre question de recherche consiste à identifier les techniques les plus pertinentes pour évaluer la similarité textuelle, et déterminer s’il est possible d’améliorer ces techniques par des combinaisons de méthodes de calcul de la similarité sémantique et de détection des cooccurrences de mots. Lors de nos expérimentations, nous avons cherché à améliorer la similarité sémantique entre les mots. Nous avons aussi proposé plusieurs méthodes pour élargir le vocabulaire des documents basées sur les résultats de la première partie de nos travaux. Nous avons enfin mesuré la similarité sémantique entre les documents modifiés, afin de les utiliser comme base à la rédaction d’une réponse à la nouvelle requête. Notre bilan nous indique que, grâce à nos calculs, il est possible d’améliorer les résultats de calcul de la similarité entre les mots (cosinus) en filtrant les cooccurrences. Cependant, une méthode de filtrage ne garantit pas nécessairement des améliorations, et peut même dégrader la capacité de détection de similarité textuelle. Une comparaison avec la technique du tf*idf nous a permis de constater que les résultats améliorés du cosinus, que nous avons obtenus, égalent pratiquement cette technique, sans pour autant la dépasser. === E-mails have recently become a popular mean of communication for exchanges between companies and their customers. However the increasing volume of messages makes manual processing difficult to achieve and automatic methods are foreseen as a more efficient solution. Automatic management systems help users in the processing of the messages and in the creation of a response from the messages kept in the company databases. One important question in this type of application is how to select existing e-mails to respond to a new request. The creation of new response messages requires texts pertaining to the new request topics. Finding similarity between documents is also an important task. Our goal for this research effort was to study how to detect similarity between small documents. To accomplish it, we followed a two-pronged approach: - finding similarity between words in order to augment a document’s vocabulary; - estimating similarity between documents, using all the similar words resulting from the previous step. We dedicated our work to determine the most interesting techniques to detect textual similarity between documents, and to improve those techniques using cooccurrences detection and lexical semantic similarity. During our experimentations, we tried different combinations, using cooccurrences detection and lexical similarity. We proposed techniques to augment the vocabulary of each message, based on different kind of reasoning to improve the estimation of similarity between documents. Our results indicate that the proposed augmentation techniques improve significantly the estimation of document similarity. The best results were obtained when using a combination of cooccurrences filter and cosine metric. However our experiments clearly indicate these results do not overcome the performance of similarity techniques based on tf*idf weights.
author2 Lamontagne, Luc D.
author_facet Lamontagne, Luc D.
Miry, Erwan
author Miry, Erwan
author_sort Miry, Erwan
title Similarité statistique pour le CBR textuel
title_short Similarité statistique pour le CBR textuel
title_full Similarité statistique pour le CBR textuel
title_fullStr Similarité statistique pour le CBR textuel
title_full_unstemmed Similarité statistique pour le CBR textuel
title_sort similarité statistique pour le cbr textuel
publisher Université Laval
publishDate 2007
url http://hdl.handle.net/20.500.11794/19736
work_keys_str_mv AT miryerwan similaritestatistiquepourlecbrtextuel
_version_ 1719334333111599104
spelling ndltd-LAVAL-oai-corpus.ulaval.ca-20.500.11794-197362020-07-31T17:07:19Z Similarité statistique pour le CBR textuel Miry, Erwan Lamontagne, Luc D. QA 76.05 UL 2007 Raisonnement par cas Courrier électronique Les courriers électroniques sont devenus au cours des dernières années un moyen de communication privilégié. Leur nombre atteint des niveaux si élevés que leur manipulation par les entreprises devient difficile manuellement et requiert des méthodes automatiques. Les systèmes de suivi automatique permettent un traitement des messages et une augmentation de la facilité pour les utilisateurs qui désirent créer un courriel en réponse à une requête, à partir de messages archivés dans la bibliothèque de l’entreprise. Un des problèmes majeurs dans ce type d’application est la sélection de courriers électroniques archivés pertinents à la requête nouvellement soumise : il est nécessaire que le texte retourné par le système qui servira de base à la rédaction d’une réponse, soit en corrélation avec le sujet de la question posée. La recherche de la similarité entre les textes est donc une des principales tâches de ce système. L’objectif de nos travaux se situe toutefois à un niveau supérieur à la simple recherche de similarité entre courriers électroniques; nous avons comme objectif d’évaluer la similarité entre des textes comportant peu de mots. Pour cela, notre étude comporte deux parties distinctes: la recherche de similarités entre des mots afin d’élargir le vocabulaire d’un texte, e le calcul de la similarité entre les documents. Notre question de recherche consiste à identifier les techniques les plus pertinentes pour évaluer la similarité textuelle, et déterminer s’il est possible d’améliorer ces techniques par des combinaisons de méthodes de calcul de la similarité sémantique et de détection des cooccurrences de mots. Lors de nos expérimentations, nous avons cherché à améliorer la similarité sémantique entre les mots. Nous avons aussi proposé plusieurs méthodes pour élargir le vocabulaire des documents basées sur les résultats de la première partie de nos travaux. Nous avons enfin mesuré la similarité sémantique entre les documents modifiés, afin de les utiliser comme base à la rédaction d’une réponse à la nouvelle requête. Notre bilan nous indique que, grâce à nos calculs, il est possible d’améliorer les résultats de calcul de la similarité entre les mots (cosinus) en filtrant les cooccurrences. Cependant, une méthode de filtrage ne garantit pas nécessairement des améliorations, et peut même dégrader la capacité de détection de similarité textuelle. Une comparaison avec la technique du tf*idf nous a permis de constater que les résultats améliorés du cosinus, que nous avons obtenus, égalent pratiquement cette technique, sans pour autant la dépasser. E-mails have recently become a popular mean of communication for exchanges between companies and their customers. However the increasing volume of messages makes manual processing difficult to achieve and automatic methods are foreseen as a more efficient solution. Automatic management systems help users in the processing of the messages and in the creation of a response from the messages kept in the company databases. One important question in this type of application is how to select existing e-mails to respond to a new request. The creation of new response messages requires texts pertaining to the new request topics. Finding similarity between documents is also an important task. Our goal for this research effort was to study how to detect similarity between small documents. To accomplish it, we followed a two-pronged approach: - finding similarity between words in order to augment a document’s vocabulary; - estimating similarity between documents, using all the similar words resulting from the previous step. We dedicated our work to determine the most interesting techniques to detect textual similarity between documents, and to improve those techniques using cooccurrences detection and lexical semantic similarity. During our experimentations, we tried different combinations, using cooccurrences detection and lexical similarity. We proposed techniques to augment the vocabulary of each message, based on different kind of reasoning to improve the estimation of similarity between documents. Our results indicate that the proposed augmentation techniques improve significantly the estimation of document similarity. The best results were obtained when using a combination of cooccurrences filter and cosine metric. However our experiments clearly indicate these results do not overcome the performance of similarity techniques based on tf*idf weights. 2007 info:eu-repo/semantics/openAccess https://corpus.ulaval.ca/jspui/conditions.jsp info:eu-repo/semantics/masterThesis http://hdl.handle.net/20.500.11794/19736 fre 112 p. application/pdf Université Laval