Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues

Le problème de la segmentation en mots, ou itémisation, est souvent considéré comme trivial grâce à la présence de séparateurs dans l'écriture. L'essor de l'Internet et surtout du Web a rendu disponibles des millions de documents dans une multitude de langues et généré un intérêt pour...

Full description

Bibliographic Details
Main Author: Quint, Julien
Language:FRE
Published: 2002
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00521940
http://tel.archives-ouvertes.fr/docs/00/52/19/40/PDF/these.pdf