Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO

Le contenu du mémoire livré ici correspond exactement au titre qu'il porte, mais celui-ci recouvre plus de choses qu'il n'en laisse d'abord paraître : un décalage technique important est effectivement survenu depuis que s'est terminée la première vague de lemmatisation, en 1...

Full description

Bibliographic Details
Main Author: Lessard, Jean-Marie
Other Authors: Beauchemin, Normand
Language:French
Published: Université de Sherbrooke 1994
Online Access:http://hdl.handle.net/11143/10013
id ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-10013
record_format oai_dc
spelling ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-100132017-02-09T17:06:26Z Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO Lessard, Jean-Marie Beauchemin, Normand Le contenu du mémoire livré ici correspond exactement au titre qu'il porte, mais celui-ci recouvre plus de choses qu'il n'en laisse d'abord paraître : un décalage technique important est effectivement survenu depuis que s'est terminée la première vague de lemmatisation, en 1984 ; l'utilisation de nouveaux logiciels (tel WordCruncher, par exemple, pour l'indexation du corpus) commandait des modifications importantes aux formats des fichiers de données, dictionnaire ou autres, ainsi que des ajustements au programme de lemmatisation lui-même. Il n'y a donc pas à trop se surprendre de la saveur plutôt informatique du travail réalisé à l’occasion de ce mémoire, non plus que de la teneur parfois indigeste des considérations pratiques qui s'y trouvent consignées : l’amélioration du lemmatiseur passait en premier lieu par la réfection de sa plomberie. Précisons toutefois, pour ceux des linguistes que pourrait embarrasser l'importance accordée à cet aspect du travail, que c'est l 'ajout de plus de 20 000 nouvelles formes au dictionnaire de lemmatisation, comprenant l'information métalinguistique requise par le programme pour concrètement lemmatiser, qui a continuellement conditionné l’ensemble du travail. Quant à la nature du lien théorique qui existe entre les formes que contient le dictionnaire de lemmatisation et les occurrences de celles-ci dans les textes d'où elles proviennent, le dictionnaire de lemmatisation n'est pas une simple liste de mots : les éléments qui le composent proviennent de textes qui forment un ensemble cohérent d'échantillons linguistiques. Il faut en situer la valeur à l'origine du processus d'analyse statistique qui, par exemple, a pu donner naissance au Dictionnaire de fréquence des mots du français parlé au Québec et souligner que la vision de la langue qui s'en dégage est conditionnée par les résultats qu'il a permis d'obtenir. Enfin, le format du fichier dictionnaire et le type d'informations métalinguistiques qui s'y retrouvent reflètent très certainement le caractère proprement lexicologique des travaux menés à Sherbrooke. En gros, le travail porte sur la fréquence des occurrences échantillonnées pour se donner une idée de la langue commune, celle que l'on voudrait voir un jour prochain se refléter dans un dictionnaire véritablement québécois. [...] 1994 Mémoire http://hdl.handle.net/11143/10013 fre © Jean-Marie Lessard Université de Sherbrooke
collection NDLTD
language French
sources NDLTD
description Le contenu du mémoire livré ici correspond exactement au titre qu'il porte, mais celui-ci recouvre plus de choses qu'il n'en laisse d'abord paraître : un décalage technique important est effectivement survenu depuis que s'est terminée la première vague de lemmatisation, en 1984 ; l'utilisation de nouveaux logiciels (tel WordCruncher, par exemple, pour l'indexation du corpus) commandait des modifications importantes aux formats des fichiers de données, dictionnaire ou autres, ainsi que des ajustements au programme de lemmatisation lui-même. Il n'y a donc pas à trop se surprendre de la saveur plutôt informatique du travail réalisé à l’occasion de ce mémoire, non plus que de la teneur parfois indigeste des considérations pratiques qui s'y trouvent consignées : l’amélioration du lemmatiseur passait en premier lieu par la réfection de sa plomberie. Précisons toutefois, pour ceux des linguistes que pourrait embarrasser l'importance accordée à cet aspect du travail, que c'est l 'ajout de plus de 20 000 nouvelles formes au dictionnaire de lemmatisation, comprenant l'information métalinguistique requise par le programme pour concrètement lemmatiser, qui a continuellement conditionné l’ensemble du travail. Quant à la nature du lien théorique qui existe entre les formes que contient le dictionnaire de lemmatisation et les occurrences de celles-ci dans les textes d'où elles proviennent, le dictionnaire de lemmatisation n'est pas une simple liste de mots : les éléments qui le composent proviennent de textes qui forment un ensemble cohérent d'échantillons linguistiques. Il faut en situer la valeur à l'origine du processus d'analyse statistique qui, par exemple, a pu donner naissance au Dictionnaire de fréquence des mots du français parlé au Québec et souligner que la vision de la langue qui s'en dégage est conditionnée par les résultats qu'il a permis d'obtenir. Enfin, le format du fichier dictionnaire et le type d'informations métalinguistiques qui s'y retrouvent reflètent très certainement le caractère proprement lexicologique des travaux menés à Sherbrooke. En gros, le travail porte sur la fréquence des occurrences échantillonnées pour se donner une idée de la langue commune, celle que l'on voudrait voir un jour prochain se refléter dans un dictionnaire véritablement québécois. [...]
author2 Beauchemin, Normand
author_facet Beauchemin, Normand
Lessard, Jean-Marie
author Lessard, Jean-Marie
spellingShingle Lessard, Jean-Marie
Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
author_sort Lessard, Jean-Marie
title Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
title_short Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
title_full Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
title_fullStr Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
title_full_unstemmed Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
title_sort considérations pratiques et amélioration du lemmatiseur semi-automatique développé à sherbrooke dans le cadre du projet solivo
publisher Université de Sherbrooke
publishDate 1994
url http://hdl.handle.net/11143/10013
work_keys_str_mv AT lessardjeanmarie considerationspratiquesetameliorationdulemmatiseursemiautomatiquedeveloppeasherbrookedanslecadreduprojetsolivo
_version_ 1718413654562439168