Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
Le problème de la segmentation en mots, ou itémisation, est souvent considéré comme trivial grâce à la présence de séparateurs dans l'écriture. L'essor de l'Internet et surtout du Web a rendu disponibles des millions de documents dans une multitude de langues et généré un intérêt pour...
Main Author: | |
---|---|
Language: | FRE |
Published: |
2002
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00521940 http://tel.archives-ouvertes.fr/docs/00/52/19/40/PDF/these.pdf |