Fouille de documents et d'opinions multilingue

L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’...

Full description

Bibliographic Details
Main Author: Saad, Motaz
Other Authors: Université de Lorraine
Language:en
Published: 2015
Subjects:
Online Access:http://www.theses.fr/2015LORR0003/document
id ndltd-theses.fr-2015LORR0003
record_format oai_dc
spelling ndltd-theses.fr-2015LORR00032019-05-24T03:32:50Z Fouille de documents et d'opinions multilingue Mining Documents and Sentiments in Cross-lingual Context Fouille de textes Traitement automatique du langage naturel Corpus comparable Recherche d’information inter-Langues Projection inter-Langues Analyse des sentiments Text mining Natural language processing Comparable corpus Cross-Lingual information retrieval Cross-Lingual projection Sentiment analysis 006.312 L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair Electronic Thesis or Dissertation Text en http://www.theses.fr/2015LORR0003/document Saad, Motaz 2015-01-20 Université de Lorraine Smaïli, Kamel Langlois, David
collection NDLTD
language en
sources NDLTD
topic Fouille de textes
Traitement automatique du langage naturel
Corpus comparable
Recherche d’information inter-Langues
Projection inter-Langues
Analyse des sentiments
Text mining
Natural language processing
Comparable corpus
Cross-Lingual information retrieval
Cross-Lingual projection
Sentiment analysis
006.312
spellingShingle Fouille de textes
Traitement automatique du langage naturel
Corpus comparable
Recherche d’information inter-Langues
Projection inter-Langues
Analyse des sentiments
Text mining
Natural language processing
Comparable corpus
Cross-Lingual information retrieval
Cross-Lingual projection
Sentiment analysis
006.312
Saad, Motaz
Fouille de documents et d'opinions multilingue
description L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue === The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair
author2 Université de Lorraine
author_facet Université de Lorraine
Saad, Motaz
author Saad, Motaz
author_sort Saad, Motaz
title Fouille de documents et d'opinions multilingue
title_short Fouille de documents et d'opinions multilingue
title_full Fouille de documents et d'opinions multilingue
title_fullStr Fouille de documents et d'opinions multilingue
title_full_unstemmed Fouille de documents et d'opinions multilingue
title_sort fouille de documents et d'opinions multilingue
publishDate 2015
url http://www.theses.fr/2015LORR0003/document
work_keys_str_mv AT saadmotaz fouillededocumentsetdopinionsmultilingue
AT saadmotaz miningdocumentsandsentimentsincrosslingualcontext
_version_ 1719192328844869632