Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1

La présente contribution ambitionne de revenir sur l’élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l’un d’oral transcrit et l’autre de sources écrites – de taille modeste mais constitués afin qu’ils présentent un haut rendement exploratoire. L’objectif d...

Full description

Bibliographic Details
Main Author: Gasiglia Nathalie
Format: Article
Language:English
Published: EDP Sciences 2016-01-01
Series:SHS Web of Conferences
Online Access:http://dx.doi.org/10.1051/shsconf/20162711004
id doaj-ab6be5e4b41a41fe8d3fff6b3678efc1
record_format Article
spelling doaj-ab6be5e4b41a41fe8d3fff6b3678efc12021-02-02T08:52:54ZengEDP SciencesSHS Web of Conferences2261-24242016-01-01271100410.1051/shsconf/20162711004shsconf_cmlf2016_11004Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1Gasiglia NathalieLa présente contribution ambitionne de revenir sur l’élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l’un d’oral transcrit et l’autre de sources écrites – de taille modeste mais constitués afin qu’ils présentent un haut rendement exploratoire. L’objectif de ce retour est de réexaminer les choix de balisage XML mis en œuvre au sein de chacun et d’étudier la pertinence d’une annotation plus fine de certains phénomènes non encore traités. Après avoir présenté le contexte qui a motivé l’élaboration de ces corpus puis leurs contenus, nous exposons les éléments majeurs du balisage de chacun, en valorisant ce qui les différencie, avant d’entrer plus finement dans leurs données et d’analyser l’impact des modalités ou des moments de production des énoncés sur leur forme, et conséquemment la pertinence d’une annotation de ces paramètres dans le balisage. Si les deux corpus ont à l’heure actuelle un haut rendement exploratoire du fait de leur thématisation et de la sélection de commentaires, donc de productions d’un ensemble de locuteurs spécialisés qui s’adressent à un large public, la spécificité des situations d’énonciation propres aux énoncés oraux ou écrits de chaque corpus a un impact sur la nature des données observables au sein de chacun. Ainsi, d’une certaine manière, selon le média de diffusion, les commentaires qui permettent au public de suivre les matchs qu’il ne voit pas ne l’informent pas de manière équivalente. Nous apprécierons comment le balisage XML peut faciliter les analyses des discours et les études lexicales au sein de ces corpus.http://dx.doi.org/10.1051/shsconf/20162711004
collection DOAJ
language English
format Article
sources DOAJ
author Gasiglia Nathalie
spellingShingle Gasiglia Nathalie
Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
SHS Web of Conferences
author_facet Gasiglia Nathalie
author_sort Gasiglia Nathalie
title Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
title_short Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
title_full Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
title_fullStr Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
title_full_unstemmed Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
title_sort enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
publisher EDP Sciences
series SHS Web of Conferences
issn 2261-2424
publishDate 2016-01-01
description La présente contribution ambitionne de revenir sur l’élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l’un d’oral transcrit et l’autre de sources écrites – de taille modeste mais constitués afin qu’ils présentent un haut rendement exploratoire. L’objectif de ce retour est de réexaminer les choix de balisage XML mis en œuvre au sein de chacun et d’étudier la pertinence d’une annotation plus fine de certains phénomènes non encore traités. Après avoir présenté le contexte qui a motivé l’élaboration de ces corpus puis leurs contenus, nous exposons les éléments majeurs du balisage de chacun, en valorisant ce qui les différencie, avant d’entrer plus finement dans leurs données et d’analyser l’impact des modalités ou des moments de production des énoncés sur leur forme, et conséquemment la pertinence d’une annotation de ces paramètres dans le balisage. Si les deux corpus ont à l’heure actuelle un haut rendement exploratoire du fait de leur thématisation et de la sélection de commentaires, donc de productions d’un ensemble de locuteurs spécialisés qui s’adressent à un large public, la spécificité des situations d’énonciation propres aux énoncés oraux ou écrits de chaque corpus a un impact sur la nature des données observables au sein de chacun. Ainsi, d’une certaine manière, selon le média de diffusion, les commentaires qui permettent au public de suivre les matchs qu’il ne voit pas ne l’informent pas de manière équivalente. Nous apprécierons comment le balisage XML peut faciliter les analyses des discours et les études lexicales au sein de ces corpus.
url http://dx.doi.org/10.1051/shsconf/20162711004
work_keys_str_mv AT gasiglianathalie enrichirlebalisagedecorpusfootballistiquespourenaugmenterlepouvoirdocumentaire1
_version_ 1724296137720987648