Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes

Dans ce mémoire, nous nous attachons à retracer les différents travaux de recherche que nous avons menés depuis plus de 10 ans. L'un de nos objectifs principaux a été d'améliorer la finesse linguistique de différentes tâches du TAL en prenant en compte les expressions multi-mots. En partic...

Full description

Bibliographic Details
Main Author:	Constant, Matthieu
Language:	FRE
Published:	Université Paris-Est 2012
Subjects:	[INFO:INFO_TT] Computer Science/Document and Text Processing Traitement automatique des langues analyse syntaxique étiquetage morphosynatxique expressions multi-mots expressions polylexicales extraction d'information ressources linguistiques
Online Access:	http://tel.archives-ouvertes.fr/tel-00841556 http://tel.archives-ouvertes.fr/docs/00/84/15/56/PDF/hdr.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00841556
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-008415562013-07-13T03:02:11Z http://tel.archives-ouvertes.fr/tel-00841556 http://tel.archives-ouvertes.fr/docs/00/84/15/56/PDF/hdr.pdf Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes Constant, Matthieu [INFO:INFO_TT] Computer Science/Document and Text Processing Traitement automatique des langues analyse syntaxique étiquetage morphosynatxique expressions multi-mots expressions polylexicales extraction d'information ressources linguistiques Dans ce mémoire, nous nous attachons à retracer les différents travaux de recherche que nous avons menés depuis plus de 10 ans. L'un de nos objectifs principaux a été d'améliorer la finesse linguistique de différentes tâches du TAL en prenant en compte les expressions multi-mots. En particulier, notre idée directrice a été d'exploiter des ressources lexicales riches et de les coupler à différents modèles probabilistes ou différentes procédures hybrides. Nos travaux peuvent se découper en trois axes. Le premier axe porte sur l'étiquetage morphosyntaxique et l'analyse syntaxique. L'intégration de la reconnaissance des expressions multi-mots dans telles tâches a essentiellement consisté à adapter divers modèles probabilistes dédiés à ces tâches. Comme ces expressions sont, par définition, difficilement prédictibles, l'exploitation de ressources lexicales est primordiale pour leur reconnaissance. Nous avons donc été amené à trouver des stratégies d'intégration de ressources symboliques externes dans nos modèles. Le deuxième axe consiste à intégrer la reconnaissance d'expressions multi-mots dans des applications. Nous avons, en particulier, développé des applications liées au monde privé (extraction d'informations, classification) ou liées au monde académique (aide à la construction de lexiques bilingues ou à des études linguistiques). Dans tous les cas, nous nous sommes basé sur des prétraitements fins alimentés par des ressources lexicales riches. Le troisième axe concerne la construction de ressources linguistiques. En effet, le développement des outils décrits ci-dessus n'est possible que grâce à l'existence de ressources (corpus annotés ou lexiques). Or, les ressources autour des expressions multi-mots manquent cruellement ou sont incomplètes. Pour toutes les ressources développées, nous avons mené des études linguistiques fines et systématiques. Nous avons également mis en place un outillage informatique pour les gérer et les appliquer à des textes. 2012-12-03 FRE habilitation ࠤiriger des recherches Université Paris-Est
collection	NDLTD
language	FRE
sources	NDLTD
topic	[INFO:INFO_TT] Computer Science/Document and Text Processing Traitement automatique des langues analyse syntaxique étiquetage morphosynatxique expressions multi-mots expressions polylexicales extraction d'information ressources linguistiques
spellingShingle	[INFO:INFO_TT] Computer Science/Document and Text Processing Traitement automatique des langues analyse syntaxique étiquetage morphosynatxique expressions multi-mots expressions polylexicales extraction d'information ressources linguistiques Constant, Matthieu Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes
description	Dans ce mémoire, nous nous attachons à retracer les différents travaux de recherche que nous avons menés depuis plus de 10 ans. L'un de nos objectifs principaux a été d'améliorer la finesse linguistique de différentes tâches du TAL en prenant en compte les expressions multi-mots. En particulier, notre idée directrice a été d'exploiter des ressources lexicales riches et de les coupler à différents modèles probabilistes ou différentes procédures hybrides. Nos travaux peuvent se découper en trois axes. Le premier axe porte sur l'étiquetage morphosyntaxique et l'analyse syntaxique. L'intégration de la reconnaissance des expressions multi-mots dans telles tâches a essentiellement consisté à adapter divers modèles probabilistes dédiés à ces tâches. Comme ces expressions sont, par définition, difficilement prédictibles, l'exploitation de ressources lexicales est primordiale pour leur reconnaissance. Nous avons donc été amené à trouver des stratégies d'intégration de ressources symboliques externes dans nos modèles. Le deuxième axe consiste à intégrer la reconnaissance d'expressions multi-mots dans des applications. Nous avons, en particulier, développé des applications liées au monde privé (extraction d'informations, classification) ou liées au monde académique (aide à la construction de lexiques bilingues ou à des études linguistiques). Dans tous les cas, nous nous sommes basé sur des prétraitements fins alimentés par des ressources lexicales riches. Le troisième axe concerne la construction de ressources linguistiques. En effet, le développement des outils décrits ci-dessus n'est possible que grâce à l'existence de ressources (corpus annotés ou lexiques). Or, les ressources autour des expressions multi-mots manquent cruellement ou sont incomplètes. Pour toutes les ressources développées, nous avons mené des études linguistiques fines et systématiques. Nous avons également mis en place un outillage informatique pour les gérer et les appliquer à des textes.
author	Constant, Matthieu
author_facet	Constant, Matthieu
author_sort	Constant, Matthieu
title	Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes
title_short	Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes
title_full	Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes
title_fullStr	Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes
title_full_unstemmed	Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes
title_sort	mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes
publisher	Université Paris-Est
publishDate	2012
url	http://tel.archives-ouvertes.fr/tel-00841556 http://tel.archives-ouvertes.fr/docs/00/84/15/56/PDF/hdr.pdf
work_keys_str_mv	AT constantmatthieu mettrelesexpressionsmultimotsaucoeurdelanalyseautomatiquedetextessurlexploitationderessourcessymboliquesexternes
_version_	1716593980706127872

Mettre les expressions multi-mots au coeur de l'analyse automatique de textes : sur l'exploitation de ressources symboliques externes

Similar Items