Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée
Les systèmes de traduction automatique obtiennent aujourd'hui de bons résultats sur certains couples de langues comme anglais – français, anglais – chinois, anglais – espagnol, etc. Les approches de traduction empiriques, particulièrement l'approche de traduction automatique probabiliste,...
Main Author: | |
---|---|
Other Authors: | |
Language: | fr |
Published: |
2011
|
Subjects: | |
Online Access: | http://www.theses.fr/2011GRENM065/document |
id |
ndltd-theses.fr-2011GRENM065 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
fr |
sources |
NDLTD |
topic |
Langues peu dotées Traduction automatique probabiliste Extraction de données parallèles Corpus comparable Méthode non supervisée Triangulation Under resourced languages Statistical machine translation Mining parallel data Comparable corpus Unsupervised method Triangulation 004 |
spellingShingle |
Langues peu dotées Traduction automatique probabiliste Extraction de données parallèles Corpus comparable Méthode non supervisée Triangulation Under resourced languages Statistical machine translation Mining parallel data Comparable corpus Unsupervised method Triangulation 004 Do, Thi Ngoc Diep Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée |
description |
Les systèmes de traduction automatique obtiennent aujourd'hui de bons résultats sur certains couples de langues comme anglais – français, anglais – chinois, anglais – espagnol, etc. Les approches de traduction empiriques, particulièrement l'approche de traduction automatique probabiliste, nous permettent de construire rapidement un système de traduction si des corpus de données adéquats sont disponibles. En effet, la traduction automatique probabiliste est fondée sur l'apprentissage de modèles à partir de grands corpus parallèles bilingues pour les langues source et cible. Toutefois, la recherche sur la traduction automatique pour des paires de langues dites «peu dotés» doit faire face au défi du manque de données. Nous avons ainsi abordé le problème d'acquisition d'un grand corpus de textes bilingues parallèles pour construire le système de traduction automatique probabiliste. L'originalité de notre travail réside dans le fait que nous nous concentrons sur les langues peu dotées, où des corpus de textes bilingues parallèles sont inexistants dans la plupart des cas. Ce manuscrit présente notre méthodologie d'extraction d'un corpus d'apprentissage parallèle à partir d'un corpus comparable, une ressource de données plus riche et diversifiée sur l'Internet. Nous proposons trois méthodes d'extraction. La première méthode suit l'approche de recherche classique qui utilise des caractéristiques générales des documents ainsi que des informations lexicales du document pour extraire à la fois les documents comparables et les phrases parallèles. Cependant, cette méthode requiert des données supplémentaires sur la paire de langues. La deuxième méthode est une méthode entièrement non supervisée qui ne requiert aucune donnée supplémentaire à l'entrée, et peut être appliquée pour n'importe quelle paires de langues, même des paires de langues peu dotées. La dernière méthode est une extension de la deuxième méthode qui utilise une troisième langue, pour améliorer les processus d'extraction de deux paires de langues. Les méthodes proposées sont validées par des expériences appliquées sur la langue peu dotée vietnamienne et les langues française et anglaise. === Nowadays, machine translation has reached good results when applied to several language pairs such as English – French, English – Chinese, English – Spanish, etc. Empirical translation, particularly statistical machine translation allows us to build quickly a translation system if adequate data is available because statistical machine translation is based on models trained from large parallel bilingual corpora in source and target languages. However, research on machine translation for under-resourced language pairs always faces to the lack of training data. Thus, we have addressed the problem of retrieving a large parallel bilingual text corpus to build a statistical machine translation system. The originality of our work lies in the fact that we focus on under-resourced languages for which parallel bilingual corpora do not exist in most cases. This manuscript presents our methodology for extracting a parallel corpus from a comparable corpus, a richer and more diverse data resource over the Web. We propose three methods of extraction. The first method follows the classical approach using general characteristics of documents as well as lexical information of the document to retrieve both parallel documents and parallel sentence pairs. However, this method requires additional data of the language pair. The second method is a completely unsupervised method that does not require additional data and it can be applied to any language pairs, even under resourced language pairs. The last method deals with the extension of the second method using a third language to improve the extraction process (triangulation). The proposed methods are validated by a number of experiments applied on the under resourced Vietnamese language and the English and French languages. |
author2 |
Grenoble |
author_facet |
Grenoble Do, Thi Ngoc Diep |
author |
Do, Thi Ngoc Diep |
author_sort |
Do, Thi Ngoc Diep |
title |
Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée |
title_short |
Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée |
title_full |
Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée |
title_fullStr |
Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée |
title_full_unstemmed |
Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée |
title_sort |
extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée |
publishDate |
2011 |
url |
http://www.theses.fr/2011GRENM065/document |
work_keys_str_mv |
AT dothingocdiep extractiondecorpusparallelepourlatraductionautomatiquedepuisetversunelanguepeudotee AT dothingocdiep extractionaparallelcorpusformachinetranslationfromandtounderresourcedlanguages |
_version_ |
1719019595136761856 |
spelling |
ndltd-theses.fr-2011GRENM0652019-04-19T03:56:51Z Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée Extraction a parallel corpus for machine translation from and to under-resourced languages Langues peu dotées Traduction automatique probabiliste Extraction de données parallèles Corpus comparable Méthode non supervisée Triangulation Under resourced languages Statistical machine translation Mining parallel data Comparable corpus Unsupervised method Triangulation 004 Les systèmes de traduction automatique obtiennent aujourd'hui de bons résultats sur certains couples de langues comme anglais – français, anglais – chinois, anglais – espagnol, etc. Les approches de traduction empiriques, particulièrement l'approche de traduction automatique probabiliste, nous permettent de construire rapidement un système de traduction si des corpus de données adéquats sont disponibles. En effet, la traduction automatique probabiliste est fondée sur l'apprentissage de modèles à partir de grands corpus parallèles bilingues pour les langues source et cible. Toutefois, la recherche sur la traduction automatique pour des paires de langues dites «peu dotés» doit faire face au défi du manque de données. Nous avons ainsi abordé le problème d'acquisition d'un grand corpus de textes bilingues parallèles pour construire le système de traduction automatique probabiliste. L'originalité de notre travail réside dans le fait que nous nous concentrons sur les langues peu dotées, où des corpus de textes bilingues parallèles sont inexistants dans la plupart des cas. Ce manuscrit présente notre méthodologie d'extraction d'un corpus d'apprentissage parallèle à partir d'un corpus comparable, une ressource de données plus riche et diversifiée sur l'Internet. Nous proposons trois méthodes d'extraction. La première méthode suit l'approche de recherche classique qui utilise des caractéristiques générales des documents ainsi que des informations lexicales du document pour extraire à la fois les documents comparables et les phrases parallèles. Cependant, cette méthode requiert des données supplémentaires sur la paire de langues. La deuxième méthode est une méthode entièrement non supervisée qui ne requiert aucune donnée supplémentaire à l'entrée, et peut être appliquée pour n'importe quelle paires de langues, même des paires de langues peu dotées. La dernière méthode est une extension de la deuxième méthode qui utilise une troisième langue, pour améliorer les processus d'extraction de deux paires de langues. Les méthodes proposées sont validées par des expériences appliquées sur la langue peu dotée vietnamienne et les langues française et anglaise. Nowadays, machine translation has reached good results when applied to several language pairs such as English – French, English – Chinese, English – Spanish, etc. Empirical translation, particularly statistical machine translation allows us to build quickly a translation system if adequate data is available because statistical machine translation is based on models trained from large parallel bilingual corpora in source and target languages. However, research on machine translation for under-resourced language pairs always faces to the lack of training data. Thus, we have addressed the problem of retrieving a large parallel bilingual text corpus to build a statistical machine translation system. The originality of our work lies in the fact that we focus on under-resourced languages for which parallel bilingual corpora do not exist in most cases. This manuscript presents our methodology for extracting a parallel corpus from a comparable corpus, a richer and more diverse data resource over the Web. We propose three methods of extraction. The first method follows the classical approach using general characteristics of documents as well as lexical information of the document to retrieve both parallel documents and parallel sentence pairs. However, this method requires additional data of the language pair. The second method is a completely unsupervised method that does not require additional data and it can be applied to any language pairs, even under resourced language pairs. The last method deals with the extension of the second method using a third language to improve the extraction process (triangulation). The proposed methods are validated by a number of experiments applied on the under resourced Vietnamese language and the English and French languages. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2011GRENM065/document Do, Thi Ngoc Diep 2011-12-20 Grenoble Université de Hanoi -- Vietnam Besacier, Laurent Castelli, Eric |