Fouille de documents et d'opinions multilingue
L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’...
Main Author: | |
---|---|
Other Authors: | |
Language: | en |
Published: |
2015
|
Subjects: | |
Online Access: | http://www.theses.fr/2015LORR0003/document |
id |
ndltd-theses.fr-2015LORR0003 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-theses.fr-2015LORR00032019-05-24T03:32:50Z Fouille de documents et d'opinions multilingue Mining Documents and Sentiments in Cross-lingual Context Fouille de textes Traitement automatique du langage naturel Corpus comparable Recherche d’information inter-Langues Projection inter-Langues Analyse des sentiments Text mining Natural language processing Comparable corpus Cross-Lingual information retrieval Cross-Lingual projection Sentiment analysis 006.312 L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair Electronic Thesis or Dissertation Text en http://www.theses.fr/2015LORR0003/document Saad, Motaz 2015-01-20 Université de Lorraine Smaïli, Kamel Langlois, David |
collection |
NDLTD |
language |
en |
sources |
NDLTD |
topic |
Fouille de textes Traitement automatique du langage naturel Corpus comparable Recherche d’information inter-Langues Projection inter-Langues Analyse des sentiments Text mining Natural language processing Comparable corpus Cross-Lingual information retrieval Cross-Lingual projection Sentiment analysis 006.312 |
spellingShingle |
Fouille de textes Traitement automatique du langage naturel Corpus comparable Recherche d’information inter-Langues Projection inter-Langues Analyse des sentiments Text mining Natural language processing Comparable corpus Cross-Lingual information retrieval Cross-Lingual projection Sentiment analysis 006.312 Saad, Motaz Fouille de documents et d'opinions multilingue |
description |
L’objectif de cette thèse est d’étudier les sentiments dans les documents comparables. Premièrement, nous avons recueillis des corpus comparables en anglais, français et arabe de Wikipédia et d’Euronews, et nous avons aligné ces corpus au niveau document. Nous avons en plus collecté des documents d’informations des agences de presse locales et étrangères dans les langues anglaise et arabe. Les documents en anglais ont été recueillis du site de la BBC, ceux en arabe du site d’Al-Jazzera. Deuxièmement, nous avons présenté une mesure de similarité cross-linguistique des documents dans le but de récupérer et aligner automatiquement les documents comparables. Ensuite, nous avons proposé une méthode d’annotation cross-linguistique en termes de sentiments, afin d’étiqueter les documents source et cible avec des sentiments. Enfin, nous avons utilisé des mesures statistiques pour comparer l’accord des sentiments entre les documents comparables source et cible. Les méthodes présentées dans cette thèse ne dépendent pas d’une paire de langue bien déterminée, elles peuvent être appliquées sur toute autre couple de langue === The aim of this thesis is to study sentiments in comparable documents. First, we collect English, French and Arabic comparable corpora from Wikipedia and Euronews, and we align each corpus at the document level. We further gather English-Arabic news documents from local and foreign news agencies. The English documents are collected from BBC website and the Arabic documents are collected from Al-jazeera website. Second, we present a cross-lingual document similarity measure to automatically retrieve and align comparable documents. Then, we propose a cross-lingual sentiment annotation method to label source and target documents with sentiments. Finally, we use statistical measures to compare the agreement of sentiments in the source and the target pair of the comparable documents. The methods presented in this thesis are language independent and they can be applied on any language pair |
author2 |
Université de Lorraine |
author_facet |
Université de Lorraine Saad, Motaz |
author |
Saad, Motaz |
author_sort |
Saad, Motaz |
title |
Fouille de documents et d'opinions multilingue |
title_short |
Fouille de documents et d'opinions multilingue |
title_full |
Fouille de documents et d'opinions multilingue |
title_fullStr |
Fouille de documents et d'opinions multilingue |
title_full_unstemmed |
Fouille de documents et d'opinions multilingue |
title_sort |
fouille de documents et d'opinions multilingue |
publishDate |
2015 |
url |
http://www.theses.fr/2015LORR0003/document |
work_keys_str_mv |
AT saadmotaz fouillededocumentsetdopinionsmultilingue AT saadmotaz miningdocumentsandsentimentsincrosslingualcontext |
_version_ |
1719192328844869632 |