Apprentissage interactif de règles d'extraction d'information textuelle
L’Extraction d’Information est une discipline qui a émergé du Traitement Automatique des Langues afin de proposer des analyses fines d’un texte écrit en langage naturel et d’améliorer la recherche d’informations spécifiques. Les techniques d’extraction d’information ont énormément évolué durant les...
Main Author: | |
---|---|
Other Authors: | |
Language: | fr |
Published: |
2015
|
Subjects: | |
Online Access: | http://www.theses.fr/2015USPCD113/document |
id |
ndltd-theses.fr-2015USPCD113 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-theses.fr-2015USPCD1132019-07-12T03:29:49Z Apprentissage interactif de règles d'extraction d'information textuelle Iteractive learning of textual information extraction rules Extraction d'information Information extraction rules L’Extraction d’Information est une discipline qui a émergé du Traitement Automatique des Langues afin de proposer des analyses fines d’un texte écrit en langage naturel et d’améliorer la recherche d’informations spécifiques. Les techniques d’extraction d’information ont énormément évolué durant les deux dernières décennies.Les premiers systèmes d’extraction d’information étaient des systèmes à base de règles écrites manuellement. L’écriture manuelle des règles étant devenue une tâche fastidieuse, des algorithmes d’apprentissage automatique de règles ont été développés.Ces algorithmes nécessitent cependant la rédaction d’un guide d’annotation détaillé, puis l’annotation manuelle d’une grande quantité d’exemples d’entraînement. Pour minimiser l’effort humain requis dans les deux familles d’approches de mise au point de règles, nous avons proposé, dans ce travail de thèse, une approche hybride qui combine les deux en un seul système interactif qui procède en plusieurs itérations.Ce système que nous avons nommé IRIES permet à l’utilisateur de travailler de manière duale sur les règles d’extraction d’information et les exemples d’apprentissage.Pour mettre en place l’approche proposée, nous avons proposé une chaîne d’annotation linguistique du texte et l’utilisation d’un langage de règles expressif pour la compréhensibilité et la généricité des règles écrites ou inférées, une stratégie d’apprentissage sur un corpus réduit pour ne pas discriminer les exemples positifs non encore annotés à une itération donnée, la mise en place d’un concordancier pour l’écriture de règles prospectives et la mise en place d’un module d’apprentissage actif(IAL4Sets) pour une sélection intelligente d’exemples.Ces propositions ont été mises en place et évaluées sur deux corpus : le corpus de BioNLP-ST 2013 et le corpus SyntSem. Une étude de différentes combinaisons de traits linguistiques utilisés dans les expressions des règles a permis de voir l’impactde ces traits sur les performances des règles. L’apprentissage sur un corpus réduit a permis un gain considérable en temps d’apprentissage sans dégradationde performances. Enfin, le module d’apprentissage actif proposé (IAL4Sets) a permis d’améliorer les performances de l’apprentissage actif de base de l’algorithme WHISK grâce à l’introduction de la notion de distance ou de similarité distributionnelle qui permet de proposer à l’utilisateur des exemples sémantiquement proches des exemples positifs déjà couverts. Non communiqué Electronic Thesis or Dissertation Text fr http://www.theses.fr/2015USPCD113/document Bannour, Sondes 2015-06-16 Sorbonne Paris Cité Soldano, Henry |
collection |
NDLTD |
language |
fr |
sources |
NDLTD |
topic |
Extraction d'information Information extraction rules |
spellingShingle |
Extraction d'information Information extraction rules Bannour, Sondes Apprentissage interactif de règles d'extraction d'information textuelle |
description |
L’Extraction d’Information est une discipline qui a émergé du Traitement Automatique des Langues afin de proposer des analyses fines d’un texte écrit en langage naturel et d’améliorer la recherche d’informations spécifiques. Les techniques d’extraction d’information ont énormément évolué durant les deux dernières décennies.Les premiers systèmes d’extraction d’information étaient des systèmes à base de règles écrites manuellement. L’écriture manuelle des règles étant devenue une tâche fastidieuse, des algorithmes d’apprentissage automatique de règles ont été développés.Ces algorithmes nécessitent cependant la rédaction d’un guide d’annotation détaillé, puis l’annotation manuelle d’une grande quantité d’exemples d’entraînement. Pour minimiser l’effort humain requis dans les deux familles d’approches de mise au point de règles, nous avons proposé, dans ce travail de thèse, une approche hybride qui combine les deux en un seul système interactif qui procède en plusieurs itérations.Ce système que nous avons nommé IRIES permet à l’utilisateur de travailler de manière duale sur les règles d’extraction d’information et les exemples d’apprentissage.Pour mettre en place l’approche proposée, nous avons proposé une chaîne d’annotation linguistique du texte et l’utilisation d’un langage de règles expressif pour la compréhensibilité et la généricité des règles écrites ou inférées, une stratégie d’apprentissage sur un corpus réduit pour ne pas discriminer les exemples positifs non encore annotés à une itération donnée, la mise en place d’un concordancier pour l’écriture de règles prospectives et la mise en place d’un module d’apprentissage actif(IAL4Sets) pour une sélection intelligente d’exemples.Ces propositions ont été mises en place et évaluées sur deux corpus : le corpus de BioNLP-ST 2013 et le corpus SyntSem. Une étude de différentes combinaisons de traits linguistiques utilisés dans les expressions des règles a permis de voir l’impactde ces traits sur les performances des règles. L’apprentissage sur un corpus réduit a permis un gain considérable en temps d’apprentissage sans dégradationde performances. Enfin, le module d’apprentissage actif proposé (IAL4Sets) a permis d’améliorer les performances de l’apprentissage actif de base de l’algorithme WHISK grâce à l’introduction de la notion de distance ou de similarité distributionnelle qui permet de proposer à l’utilisateur des exemples sémantiquement proches des exemples positifs déjà couverts. === Non communiqué |
author2 |
Sorbonne Paris Cité |
author_facet |
Sorbonne Paris Cité Bannour, Sondes |
author |
Bannour, Sondes |
author_sort |
Bannour, Sondes |
title |
Apprentissage interactif de règles d'extraction d'information textuelle |
title_short |
Apprentissage interactif de règles d'extraction d'information textuelle |
title_full |
Apprentissage interactif de règles d'extraction d'information textuelle |
title_fullStr |
Apprentissage interactif de règles d'extraction d'information textuelle |
title_full_unstemmed |
Apprentissage interactif de règles d'extraction d'information textuelle |
title_sort |
apprentissage interactif de règles d'extraction d'information textuelle |
publishDate |
2015 |
url |
http://www.theses.fr/2015USPCD113/document |
work_keys_str_mv |
AT bannoursondes apprentissageinteractifdereglesdextractiondinformationtextuelle AT bannoursondes iteractivelearningoftextualinformationextractionrules |
_version_ |
1719223234165997568 |