Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques

Nous présentons un système de délimitation morphologique des textes coréens par automates à états finis. Le Coréen est une langue agglutinante et notre système peut probablement être adapté aux autres langues agglutinantes à suffixes (hongrois, finnois, turc). Les textes coréens s'écrivent prin...

Full description

Bibliographic Details
Main Author:	Huh, Hyun Gue
Language:	FRE
Published:	Université Paris-Est 2005
Subjects:	[INFO:INFO_OH] Computer Science/Other texte coréen transducteur morphologique transcodage de syllabe lexique-grammaire
Online Access:	http://tel.archives-ouvertes.fr/tel-00626255 http://tel.archives-ouvertes.fr/docs/00/62/62/55/PDF/huh.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00626255
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-006262552013-01-07T17:33:14Z http://tel.archives-ouvertes.fr/tel-00626255 http://tel.archives-ouvertes.fr/docs/00/62/62/55/PDF/huh.pdf Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques Huh, Hyun Gue [INFO:INFO_OH] Computer Science/Other texte coréen transducteur morphologique transcodage de syllabe lexique-grammaire Nous présentons un système de délimitation morphologique des textes coréens par automates à états finis. Le Coréen est une langue agglutinante et notre système peut probablement être adapté aux autres langues agglutinantes à suffixes (hongrois, finnois, turc). Les textes coréens s'écrivent principalement avec l'alphabet Hangul qui est un ensemble de caractères syllabiques. Il est possible de les mélanger avec des idéogrammes et des caractères de l'alphabet latin. Nous utilisons le système de codage de caractères UNICODE dans lequel les syllabes coréennes sont rangées par ordre alphabétique. Pour certains traitements sur les syllable coréennes, nous décomposons chaque syllable en plusieurs caractères alphabétiques coréens. Les mots coréens reçoivent des affixes. Pour le nom, un mot peut avoir plusieurs suffixes sans compter les suffixes dérivés, le nombre maximal de combinaisons étant d'environ 1600. Notre première étape pour l'analyse des textes coréens est la description des morphèmes d'un mot pour le segmenter à l'aide des séparateurs : blanc et symboles. Et on segmente encore les segments en morphèmes. Pour pouvoir analyser les segments, nous construisons des dictionnaires de racines et de séquences de suffixes. Nous utilisons les transducteurs pour représenter les compatibilités entre des morphèmes : racines et suffixes avec l'interface graphique de UNITEX. Ils sont conçus de manière à être construits et maintenus manuellement. Notre méthode est fondée sur des ressources linguistiques alors que la plupart des systèmes d'analyse morphologique sont fondés sur des données statistiques. Nous intégrons automatiquement les dictionnaires de racines et les transducteurs des suffixes en un transducteur unique, qui remplit la fonction d'un dictionnaire. Le résultat de l'analyse d'un texte se présente sous la forme d'un automate pour rendre compte de l'ambiguité du découpage en morphèmes. Les transitions sont étiquetés par des morphèmes annotés d'informations linguistiques (forme canonique, forme fléchie et informations linguistiques). 2005-06-28 FRE PhD thesis Université Paris-Est
collection	NDLTD
language	FRE
sources	NDLTD
topic	[INFO:INFO_OH] Computer Science/Other texte coréen transducteur morphologique transcodage de syllabe lexique-grammaire
spellingShingle	[INFO:INFO_OH] Computer Science/Other texte coréen transducteur morphologique transcodage de syllabe lexique-grammaire Huh, Hyun Gue Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques
description	Nous présentons un système de délimitation morphologique des textes coréens par automates à états finis. Le Coréen est une langue agglutinante et notre système peut probablement être adapté aux autres langues agglutinantes à suffixes (hongrois, finnois, turc). Les textes coréens s'écrivent principalement avec l'alphabet Hangul qui est un ensemble de caractères syllabiques. Il est possible de les mélanger avec des idéogrammes et des caractères de l'alphabet latin. Nous utilisons le système de codage de caractères UNICODE dans lequel les syllabes coréennes sont rangées par ordre alphabétique. Pour certains traitements sur les syllable coréennes, nous décomposons chaque syllable en plusieurs caractères alphabétiques coréens. Les mots coréens reçoivent des affixes. Pour le nom, un mot peut avoir plusieurs suffixes sans compter les suffixes dérivés, le nombre maximal de combinaisons étant d'environ 1600. Notre première étape pour l'analyse des textes coréens est la description des morphèmes d'un mot pour le segmenter à l'aide des séparateurs : blanc et symboles. Et on segmente encore les segments en morphèmes. Pour pouvoir analyser les segments, nous construisons des dictionnaires de racines et de séquences de suffixes. Nous utilisons les transducteurs pour représenter les compatibilités entre des morphèmes : racines et suffixes avec l'interface graphique de UNITEX. Ils sont conçus de manière à être construits et maintenus manuellement. Notre méthode est fondée sur des ressources linguistiques alors que la plupart des systèmes d'analyse morphologique sont fondés sur des données statistiques. Nous intégrons automatiquement les dictionnaires de racines et les transducteurs des suffixes en un transducteur unique, qui remplit la fonction d'un dictionnaire. Le résultat de l'analyse d'un texte se présente sous la forme d'un automate pour rendre compte de l'ambiguité du découpage en morphèmes. Les transitions sont étiquetés par des morphèmes annotés d'informations linguistiques (forme canonique, forme fléchie et informations linguistiques).
author	Huh, Hyun Gue
author_facet	Huh, Hyun Gue
author_sort	Huh, Hyun Gue
title	Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques
title_short	Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques
title_full	Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques
title_fullStr	Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques
title_full_unstemmed	Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques
title_sort	délimitation et étiquetage des morphèmes en coréen par ressources linguistiques
publisher	Université Paris-Est
publishDate	2005
url	http://tel.archives-ouvertes.fr/tel-00626255 http://tel.archives-ouvertes.fr/docs/00/62/62/55/PDF/huh.pdf
work_keys_str_mv	AT huhhyungue delimitationetetiquetagedesmorphemesencoreenparressourceslinguistiques
_version_	1716396323984375808

Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques

Similar Items