Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question
Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évalue...
Main Author: | |
---|---|
Other Authors: | |
Language: | fr |
Published: |
2013
|
Subjects: | |
Online Access: | http://www.theses.fr/2013PA112339/document |
id |
ndltd-theses.fr-2013PA112339 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
fr |
sources |
NDLTD |
topic |
Traitement automatique des langues Questions-Réponses Recherche d’information RITEL Quaero Séléction de documents Modèle de langue Classification de pages web Segmentation de pages web Apprentissage automatique Natural language processing Question & Answering Information retrieval RITEL Quaero Document selection Language modeling Web page classification Web page segmentation Machine learning |
spellingShingle |
Traitement automatique des langues Questions-Réponses Recherche d’information RITEL Quaero Séléction de documents Modèle de langue Classification de pages web Segmentation de pages web Apprentissage automatique Natural language processing Question & Answering Information retrieval RITEL Quaero Document selection Language modeling Web page classification Web page segmentation Machine learning Foucault, Nicolas Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question |
description |
Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d’Information pour la sélection de documents en QR. Celle-ci s’appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d’un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l’extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l’aide de RITEL. L’évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L’hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l’extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l’hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l’impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l’hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants. === This thesis aims at defining a unified adaptation of the document selection and answer extraction strategies, based on the document and question types, in a Question-Answering (QA) context. The solution is integrated in RITEL (a LIMSI QA system) to assess the contribution. We develop and investigate a method based on an Information Retrieval approach for the selection of relevant documents in QA. The method is based on a language model and a binary model of textual classification in relevant or irrelevant category. It is used to filter unusable documents for answer extraction by matching lists of a priori relevant documents to the question type automatically. First, we present the method along with its underlying models and we evaluate it on the QA task with RITEL in French. The evaluation is done on a corpus of 500,000 unsegmented web pages with factoid questions provided by the Quaero program (i.e. evaluation at the document level or D-level). Then, we evaluate the methodon segmented web pages (i.e. evaluation at the segment level or S-level). The idea is that information content is more consistent with segments, which facilitates answer extraction. D-filtering brings a small improvement over the baseline (no filtering). S-filtering outperforms both the baseline and D-filtering but not significantly. Finally, we study at the S-level the links between RITEL’s performances and the key parameters of the method. In order to apply the method on segments, we created a system of web page segmentation. We present and evaluate it on the QA task with the same corpora used to evaluate our document selection method. This evaluation follows the former hypothesis and measures the impact of natural web page variability (in terms of size and content) on RITEL in its task. In general, the experimental results we obtained suggest that our IR-based method helps a QA system in its task, however further investigations should be conducted – especially with larger corpora of questions – to make them significant. |
author2 |
Paris 11 |
author_facet |
Paris 11 Foucault, Nicolas |
author |
Foucault, Nicolas |
author_sort |
Foucault, Nicolas |
title |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question |
title_short |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question |
title_full |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question |
title_fullStr |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question |
title_full_unstemmed |
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question |
title_sort |
questions-réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question |
publishDate |
2013 |
url |
http://www.theses.fr/2013PA112339/document |
work_keys_str_mv |
AT foucaultnicolas questionsreponsesendomaineouvertselectionpertinentededocumentsenfonctionducontextedelaquestion AT foucaultnicolas opendomainquestionansweringrelevantdocumentselectiongearedtothequestion |
_version_ |
1719191158029025280 |
spelling |
ndltd-theses.fr-2013PA1123392019-05-18T03:40:34Z Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question Open domain question-answering : relevant document selection geared to the question Traitement automatique des langues Questions-Réponses Recherche d’information RITEL Quaero Séléction de documents Modèle de langue Classification de pages web Segmentation de pages web Apprentissage automatique Natural language processing Question & Answering Information retrieval RITEL Quaero Document selection Language modeling Web page classification Web page segmentation Machine learning Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d’Information pour la sélection de documents en QR. Celle-ci s’appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d’un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l’extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l’aide de RITEL. L’évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L’hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l’extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l’hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l’impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l’hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants. This thesis aims at defining a unified adaptation of the document selection and answer extraction strategies, based on the document and question types, in a Question-Answering (QA) context. The solution is integrated in RITEL (a LIMSI QA system) to assess the contribution. We develop and investigate a method based on an Information Retrieval approach for the selection of relevant documents in QA. The method is based on a language model and a binary model of textual classification in relevant or irrelevant category. It is used to filter unusable documents for answer extraction by matching lists of a priori relevant documents to the question type automatically. First, we present the method along with its underlying models and we evaluate it on the QA task with RITEL in French. The evaluation is done on a corpus of 500,000 unsegmented web pages with factoid questions provided by the Quaero program (i.e. evaluation at the document level or D-level). Then, we evaluate the methodon segmented web pages (i.e. evaluation at the segment level or S-level). The idea is that information content is more consistent with segments, which facilitates answer extraction. D-filtering brings a small improvement over the baseline (no filtering). S-filtering outperforms both the baseline and D-filtering but not significantly. Finally, we study at the S-level the links between RITEL’s performances and the key parameters of the method. In order to apply the method on segments, we created a system of web page segmentation. We present and evaluate it on the QA task with the same corpora used to evaluate our document selection method. This evaluation follows the former hypothesis and measures the impact of natural web page variability (in terms of size and content) on RITEL in its task. In general, the experimental results we obtained suggest that our IR-based method helps a QA system in its task, however further investigations should be conducted – especially with larger corpora of questions – to make them significant. Electronic Thesis or Dissertation Text Image StillImage fr http://www.theses.fr/2013PA112339/document Foucault, Nicolas 2013-12-16 Paris 11 Rosset, Sophie Adda, Gilles |