Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues

Le problème de la segmentation en mots, ou itémisation, est souvent considéré comme trivial grâce à la présence de séparateurs dans l'écriture. L'essor de l'Internet et surtout du Web a rendu disponibles des millions de documents dans une multitude de langues et généré un intérêt pour...

Full description

Bibliographic Details
Main Author:	Quint, Julien
Language:	FRE
Published:	2002
Subjects:	[INFO] Computer Science segmentation analyse morphologique analyse présyntaxique transducteurs d'états finis pondérés langage spécialisé pour la linguistique Perl
Online Access:	http://tel.archives-ouvertes.fr/tel-00521940 http://tel.archives-ouvertes.fr/docs/00/52/19/40/PDF/these.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00521940
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-005219402013-01-07T17:55:16Z http://tel.archives-ouvertes.fr/tel-00521940 http://tel.archives-ouvertes.fr/docs/00/52/19/40/PDF/these.pdf Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues Quint, Julien [INFO] Computer Science segmentation analyse morphologique analyse présyntaxique transducteurs d'états finis pondérés langage spécialisé pour la linguistique Perl Le problème de la segmentation en mots, ou itémisation, est souvent considéré comme trivial grâce à la présence de séparateurs dans l'écriture. L'essor de l'Internet et surtout du Web a rendu disponibles des millions de documents dans une multitude de langues et généré un intérêt pour les applications multilingues, qui ont rapidement montré les limites des approches simplistes en vigueur jusqu'à présent. L'étude, d'une part, des systèmes d'analyse morphologiques (en particulier les formalismes fondés sur les états finis), et d'autre part, des applications spécialisées pour l'itémisation dans différentes langues réputées difficiles (japonais, chinois, thaï) mène à des observations contrastées. La notion même de mot, et donc le processus d'itémisation, varie grandement d'une langue à l'autre ; et s'il n'existe pas de méthode générique, surtout en l'absence de séparateurs entre les mots, des approches similaires sont employées par différents systèmes pour différentes langues. On propose de se placer au dessus de l'itémisation et de parler de segmentation de texte en général. On introduit un langage spécialisé pour la segmentation nommé Sumo (Segmentation Universelle Multiple par Ordinateur) dont la principale caractéristique est d'offrir une séparation claire entre le processus de segmentation et la ou les langues considérées. On a donc d'une part une structure de donnée dédiée, qui représente un document simultanément à différents niveaux de segmentation (en mots, en phrases, etc.) À chaque niveau correspond un graphe d'items, les unités de segmentation à ce niveau. Cette structure à étages est fondée sur les automates d'états finis pondérés. D'autre part, on définit une algèbre pour la manipulation de ces structures, comme il en existe une pour la manipulation d'automates d'états finis. En plus de cette algèbre, on dispose également d'un langage de contrôle permettant de construire des applications de segmentation sophistiquées. Un prototype expérimental de calcul à états finis pondéré réalisé en Perl est présenté, et la réalisation d'un système complet, efficace et robuste est discuté. Les applications actuelles et potentielles de Sumo sont présentées, ainsi que les perspectives de développements à venir. 2002-11-18 FRE PhD thesis
collection	NDLTD
language	FRE
sources	NDLTD
topic	[INFO] Computer Science segmentation analyse morphologique analyse présyntaxique transducteurs d'états finis pondérés langage spécialisé pour la linguistique Perl
spellingShingle	[INFO] Computer Science segmentation analyse morphologique analyse présyntaxique transducteurs d'états finis pondérés langage spécialisé pour la linguistique Perl Quint, Julien Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
description	Le problème de la segmentation en mots, ou itémisation, est souvent considéré comme trivial grâce à la présence de séparateurs dans l'écriture. L'essor de l'Internet et surtout du Web a rendu disponibles des millions de documents dans une multitude de langues et généré un intérêt pour les applications multilingues, qui ont rapidement montré les limites des approches simplistes en vigueur jusqu'à présent. L'étude, d'une part, des systèmes d'analyse morphologiques (en particulier les formalismes fondés sur les états finis), et d'autre part, des applications spécialisées pour l'itémisation dans différentes langues réputées difficiles (japonais, chinois, thaï) mène à des observations contrastées. La notion même de mot, et donc le processus d'itémisation, varie grandement d'une langue à l'autre ; et s'il n'existe pas de méthode générique, surtout en l'absence de séparateurs entre les mots, des approches similaires sont employées par différents systèmes pour différentes langues. On propose de se placer au dessus de l'itémisation et de parler de segmentation de texte en général. On introduit un langage spécialisé pour la segmentation nommé Sumo (Segmentation Universelle Multiple par Ordinateur) dont la principale caractéristique est d'offrir une séparation claire entre le processus de segmentation et la ou les langues considérées. On a donc d'une part une structure de donnée dédiée, qui représente un document simultanément à différents niveaux de segmentation (en mots, en phrases, etc.) À chaque niveau correspond un graphe d'items, les unités de segmentation à ce niveau. Cette structure à étages est fondée sur les automates d'états finis pondérés. D'autre part, on définit une algèbre pour la manipulation de ces structures, comme il en existe une pour la manipulation d'automates d'états finis. En plus de cette algèbre, on dispose également d'un langage de contrôle permettant de construire des applications de segmentation sophistiquées. Un prototype expérimental de calcul à états finis pondéré réalisé en Perl est présenté, et la réalisation d'un système complet, efficace et robuste est discuté. Les applications actuelles et potentielles de Sumo sont présentées, ainsi que les perspectives de développements à venir.
author	Quint, Julien
author_facet	Quint, Julien
author_sort	Quint, Julien
title	Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
title_short	Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
title_full	Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
title_fullStr	Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
title_full_unstemmed	Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
title_sort	spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
publishDate	2002
url	http://tel.archives-ouvertes.fr/tel-00521940 http://tel.archives-ouvertes.fr/docs/00/52/19/40/PDF/these.pdf
work_keys_str_mv	AT quintjulien specificationetrealisationdunformalismegeneriquepourlasegmentationmultiplededocumentstextuelsmultilingues
_version_	1716397307022278656

Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues

Similar Items