Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle

Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiel...

Full description

Bibliographic Details
Main Author: Ben Salamah, Janan
Other Authors: Paris 4
Language:fr
Published: 2017
Subjects:
Online Access:http://www.theses.fr/2017PA040137
id ndltd-theses.fr-2017PA040137
record_format oai_dc
spelling ndltd-theses.fr-2017PA0401372018-01-30T04:15:25Z Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle Knowledge Extraction from texts written in Arabic and French by a linguistico-computational method Extraction de connaissance Extraction des événements Extraction des référentiels temporels Annotation d‟information Cartes Sémantiques Exploration Contextuelle Linguistico-Computationnelle Knowledge extraction Events extraction Extraction of temporal references Annotation Semantic Maps Contextual exploration Computational Linguistics Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale. In this thesis, we proposed a multilingual generic approach for the automatic information extraction. Particularly, events extraction of price variation and temporal information extraction linked to temporal referential. Our approach is based on the constitution of several semantic maps by textual analysis in order to formalize the linguistic traces expressed by categories. We created a database for an expert system to identify and annotate information (categories and their characteristics) based on the contextual rule groups. Two algorithms AnnotEC and AnnotEV have been applied in the SemanTAS platform to validate our assumptions. We have obtained a satisfactory result; Accuracy and recall are around 80%. We presented extracted knowledge by a summary file. In order to approve the multilingual aspect of our approach, we have carried out experiments on French and Arabic. We confirmed the scalability level by the annotation of large corpus. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2017PA040137 Ben Salamah, Janan 2017-10-28 Paris 4 Desclès, Jean-Pierre
collection NDLTD
language fr
sources NDLTD
topic Extraction de connaissance
Extraction des événements
Extraction des référentiels temporels
Annotation d‟information
Cartes Sémantiques
Exploration Contextuelle
Linguistico-Computationnelle
Knowledge extraction
Events extraction
Extraction of temporal references
Annotation
Semantic Maps
Contextual exploration
Computational Linguistics

spellingShingle Extraction de connaissance
Extraction des événements
Extraction des référentiels temporels
Annotation d‟information
Cartes Sémantiques
Exploration Contextuelle
Linguistico-Computationnelle
Knowledge extraction
Events extraction
Extraction of temporal references
Annotation
Semantic Maps
Contextual exploration
Computational Linguistics

Ben Salamah, Janan
Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
description Dans le cadre de notre thèse, nous avons proposé une approche générique multilingue d'extraction automatique de connaissances. Nous avons validé l‟approche sur l'extraction des événements de variations des cours pétroliers et l‟extraction des expressions temporelles liées à des référentiels. Notre approche est basée sur la constitution de plusieurs cartes sémantiques par analyse des données non structurées afin de formaliser les traces linguistiques textuelles exprimées par des catégories d'un point de vue de fouille. Nous avons mis en place un système expert permettant d‟annoter la présence des catégories en utilisant des groupes de règles. Deux algorithmes d'annotation AnnotEV et AnnotEC ont été appliqués, dans la plateforme SemanTAS. Le rappel et précision de notre système d'annotation est autour de 80%. Nous avons présenté les résultats aussi sous forme des fiches de synthèses. Nous avons validé l'aspect Multilingue de l'approche sur la langue française et arabe, et l'aspect généricité et scalabilité en testant sur plusieurs corpus de taille confédérale. === In this thesis, we proposed a multilingual generic approach for the automatic information extraction. Particularly, events extraction of price variation and temporal information extraction linked to temporal referential. Our approach is based on the constitution of several semantic maps by textual analysis in order to formalize the linguistic traces expressed by categories. We created a database for an expert system to identify and annotate information (categories and their characteristics) based on the contextual rule groups. Two algorithms AnnotEC and AnnotEV have been applied in the SemanTAS platform to validate our assumptions. We have obtained a satisfactory result; Accuracy and recall are around 80%. We presented extracted knowledge by a summary file. In order to approve the multilingual aspect of our approach, we have carried out experiments on French and Arabic. We confirmed the scalability level by the annotation of large corpus.
author2 Paris 4
author_facet Paris 4
Ben Salamah, Janan
author Ben Salamah, Janan
author_sort Ben Salamah, Janan
title Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
title_short Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
title_full Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
title_fullStr Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
title_full_unstemmed Extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
title_sort extraction de connaissances dans des textes arabes et français par une méthode linguistico-computationnelle
publishDate 2017
url http://www.theses.fr/2017PA040137
work_keys_str_mv AT bensalamahjanan extractiondeconnaissancesdansdestextesarabesetfrancaisparunemethodelinguisticocomputationnelle
AT bensalamahjanan knowledgeextractionfromtextswritteninarabicandfrenchbyalinguisticocomputationalmethod
_version_ 1718612192469712896