Détection de termes sémantiquement proches : clustering non supervisé basé sur les relations sémantiques et le degré d'apparenté sémantique
L'utilisation de termes équivalents ou sémantiquement proches est nécessaire pour augmenter la couverture et la sensibilité d'une application comme la recherche et l'extraction d'information ou l'annotation sémantique de documents. Dans le contexte de l'identification d...
Main Author: | |
---|---|
Other Authors: | |
Language: | fr en |
Published: |
2014
|
Subjects: | |
Online Access: | http://www.theses.fr/2014PA066327 |
Summary: | L'utilisation de termes équivalents ou sémantiquement proches est nécessaire pour augmenter la couverture et la sensibilité d'une application comme la recherche et l'extraction d'information ou l'annotation sémantique de documents. Dans le contexte de l'identification d'effets indésirables susceptibles d'être dûs à un médicament, la sensibilité est aussi recherchée afin de détecter plus exhaustivement les déclarations spontanées et de mieux surveiller le risque médicamenteux. C'est la raison qui motive notre travail. Dans notre travail de thèse, nous cherchons ainsi à détecter des termes sémantiquement proches et à les regrouper en utilisant plusieurs méthodes : des algorithmes de clustering non supervisés, des ressources terminologiques exploitées avec le raisonnement terminologique et des méthodes de Traitement Automatique de la Langue, comme la structuration de terminologies, où nous visons la détection de relations hiérarchiques et synonymiques. Nous avons réalisé de nombreuses expériences et évaluations des clusters générés, qui montrent que les méthodes proposées peuvent contribuer efficacement à la tâche visée. === The use of equivalent terms or semantically close is necessary to increase the coverageand sensitivity of applications such as information retrieval and extraction or semanticannotation of documents. In the context of the adverse drug reactions identification, sensitivityis also sought to detect more exhaustively spontaneous reports and better monitordrug risk. This is the reason that motivates our work. In our work, we thus seek to detectsemantically close terms and the together using several methods : unsupervised algorithms, terminological resources exploited with terminological reasoning and methodsof Natural Language Processing, such as terminology structuring, where we aim to detecthierarchical and synonymous relations. We conducted many experiments and evaluations of generated, which show that the proposed methods can efficiently contribute tothe task in question. |
---|