Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO
Le contenu du mémoire livré ici correspond exactement au titre qu'il porte, mais celui-ci recouvre plus de choses qu'il n'en laisse d'abord paraître : un décalage technique important est effectivement survenu depuis que s'est terminée la première vague de lemmatisation, en 1...
Main Author: | |
---|---|
Other Authors: | |
Language: | French |
Published: |
Université de Sherbrooke
1994
|
Online Access: | http://hdl.handle.net/11143/10013 |
id |
ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-10013 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-usherbrooke.ca-oai-savoirs.usherbrooke.ca-11143-100132017-02-09T17:06:26Z Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO Lessard, Jean-Marie Beauchemin, Normand Le contenu du mémoire livré ici correspond exactement au titre qu'il porte, mais celui-ci recouvre plus de choses qu'il n'en laisse d'abord paraître : un décalage technique important est effectivement survenu depuis que s'est terminée la première vague de lemmatisation, en 1984 ; l'utilisation de nouveaux logiciels (tel WordCruncher, par exemple, pour l'indexation du corpus) commandait des modifications importantes aux formats des fichiers de données, dictionnaire ou autres, ainsi que des ajustements au programme de lemmatisation lui-même. Il n'y a donc pas à trop se surprendre de la saveur plutôt informatique du travail réalisé à l’occasion de ce mémoire, non plus que de la teneur parfois indigeste des considérations pratiques qui s'y trouvent consignées : l’amélioration du lemmatiseur passait en premier lieu par la réfection de sa plomberie. Précisons toutefois, pour ceux des linguistes que pourrait embarrasser l'importance accordée à cet aspect du travail, que c'est l 'ajout de plus de 20 000 nouvelles formes au dictionnaire de lemmatisation, comprenant l'information métalinguistique requise par le programme pour concrètement lemmatiser, qui a continuellement conditionné l’ensemble du travail. Quant à la nature du lien théorique qui existe entre les formes que contient le dictionnaire de lemmatisation et les occurrences de celles-ci dans les textes d'où elles proviennent, le dictionnaire de lemmatisation n'est pas une simple liste de mots : les éléments qui le composent proviennent de textes qui forment un ensemble cohérent d'échantillons linguistiques. Il faut en situer la valeur à l'origine du processus d'analyse statistique qui, par exemple, a pu donner naissance au Dictionnaire de fréquence des mots du français parlé au Québec et souligner que la vision de la langue qui s'en dégage est conditionnée par les résultats qu'il a permis d'obtenir. Enfin, le format du fichier dictionnaire et le type d'informations métalinguistiques qui s'y retrouvent reflètent très certainement le caractère proprement lexicologique des travaux menés à Sherbrooke. En gros, le travail porte sur la fréquence des occurrences échantillonnées pour se donner une idée de la langue commune, celle que l'on voudrait voir un jour prochain se refléter dans un dictionnaire véritablement québécois. [...] 1994 Mémoire http://hdl.handle.net/11143/10013 fre © Jean-Marie Lessard Université de Sherbrooke |
collection |
NDLTD |
language |
French |
sources |
NDLTD |
description |
Le contenu du mémoire livré ici correspond exactement au titre qu'il porte, mais celui-ci recouvre plus de choses qu'il n'en laisse d'abord paraître : un décalage technique important est effectivement survenu depuis que s'est terminée la première vague de lemmatisation, en 1984 ; l'utilisation de nouveaux logiciels (tel WordCruncher, par exemple, pour l'indexation du corpus) commandait des modifications importantes aux formats des fichiers de données, dictionnaire ou autres, ainsi que des ajustements au programme de lemmatisation lui-même. Il n'y a donc pas à trop se surprendre de la saveur plutôt informatique du travail réalisé à l’occasion de ce mémoire, non plus que de la teneur parfois indigeste des considérations pratiques qui s'y trouvent consignées : l’amélioration du lemmatiseur passait en premier lieu par la réfection de sa plomberie. Précisons toutefois, pour ceux des linguistes que pourrait embarrasser l'importance accordée à cet aspect du travail, que c'est l 'ajout de plus de 20 000 nouvelles formes au dictionnaire de lemmatisation, comprenant l'information métalinguistique requise par le programme pour concrètement lemmatiser, qui a continuellement conditionné l’ensemble du travail. Quant à la nature du lien théorique qui existe entre les formes que contient le dictionnaire de lemmatisation et les occurrences de celles-ci dans les textes d'où elles proviennent, le dictionnaire de lemmatisation n'est pas une simple liste de mots : les éléments qui le composent proviennent de textes qui forment un ensemble cohérent d'échantillons linguistiques. Il faut en situer la valeur à l'origine du processus d'analyse statistique qui, par exemple, a pu donner naissance au Dictionnaire de fréquence des mots du français parlé au Québec et souligner que la vision de la langue qui s'en dégage est conditionnée par les résultats qu'il a permis d'obtenir. Enfin, le format du fichier dictionnaire et le type d'informations métalinguistiques qui s'y retrouvent reflètent très certainement le caractère proprement lexicologique des travaux menés à Sherbrooke. En gros, le travail porte sur la fréquence des occurrences échantillonnées pour se donner une idée de la langue commune, celle que l'on voudrait voir un jour prochain se refléter dans un dictionnaire véritablement québécois. [...] |
author2 |
Beauchemin, Normand |
author_facet |
Beauchemin, Normand Lessard, Jean-Marie |
author |
Lessard, Jean-Marie |
spellingShingle |
Lessard, Jean-Marie Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO |
author_sort |
Lessard, Jean-Marie |
title |
Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO |
title_short |
Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO |
title_full |
Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO |
title_fullStr |
Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO |
title_full_unstemmed |
Considérations pratiques et amélioration du lemmatiseur semi-automatique développé à Sherbrooke dans le cadre du projet SOLIVO |
title_sort |
considérations pratiques et amélioration du lemmatiseur semi-automatique développé à sherbrooke dans le cadre du projet solivo |
publisher |
Université de Sherbrooke |
publishDate |
1994 |
url |
http://hdl.handle.net/11143/10013 |
work_keys_str_mv |
AT lessardjeanmarie considerationspratiquesetameliorationdulemmatiseursemiautomatiquedeveloppeasherbrookedanslecadreduprojetsolivo |
_version_ |
1718413654562439168 |