Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1
La présente contribution ambitionne de revenir sur l’élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l’un d’oral transcrit et l’autre de sources écrites – de taille modeste mais constitués afin qu’ils présentent un haut rendement exploratoire. L’objectif d...
Main Author: | |
---|---|
Format: | Article |
Language: | English |
Published: |
EDP Sciences
2016-01-01
|
Series: | SHS Web of Conferences |
Online Access: | http://dx.doi.org/10.1051/shsconf/20162711004 |
id |
doaj-ab6be5e4b41a41fe8d3fff6b3678efc1 |
---|---|
record_format |
Article |
spelling |
doaj-ab6be5e4b41a41fe8d3fff6b3678efc12021-02-02T08:52:54ZengEDP SciencesSHS Web of Conferences2261-24242016-01-01271100410.1051/shsconf/20162711004shsconf_cmlf2016_11004Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1Gasiglia NathalieLa présente contribution ambitionne de revenir sur l’élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l’un d’oral transcrit et l’autre de sources écrites – de taille modeste mais constitués afin qu’ils présentent un haut rendement exploratoire. L’objectif de ce retour est de réexaminer les choix de balisage XML mis en œuvre au sein de chacun et d’étudier la pertinence d’une annotation plus fine de certains phénomènes non encore traités. Après avoir présenté le contexte qui a motivé l’élaboration de ces corpus puis leurs contenus, nous exposons les éléments majeurs du balisage de chacun, en valorisant ce qui les différencie, avant d’entrer plus finement dans leurs données et d’analyser l’impact des modalités ou des moments de production des énoncés sur leur forme, et conséquemment la pertinence d’une annotation de ces paramètres dans le balisage. Si les deux corpus ont à l’heure actuelle un haut rendement exploratoire du fait de leur thématisation et de la sélection de commentaires, donc de productions d’un ensemble de locuteurs spécialisés qui s’adressent à un large public, la spécificité des situations d’énonciation propres aux énoncés oraux ou écrits de chaque corpus a un impact sur la nature des données observables au sein de chacun. Ainsi, d’une certaine manière, selon le média de diffusion, les commentaires qui permettent au public de suivre les matchs qu’il ne voit pas ne l’informent pas de manière équivalente. Nous apprécierons comment le balisage XML peut faciliter les analyses des discours et les études lexicales au sein de ces corpus.http://dx.doi.org/10.1051/shsconf/20162711004 |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Gasiglia Nathalie |
spellingShingle |
Gasiglia Nathalie Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 SHS Web of Conferences |
author_facet |
Gasiglia Nathalie |
author_sort |
Gasiglia Nathalie |
title |
Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 |
title_short |
Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 |
title_full |
Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 |
title_fullStr |
Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 |
title_full_unstemmed |
Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 |
title_sort |
enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 |
publisher |
EDP Sciences |
series |
SHS Web of Conferences |
issn |
2261-2424 |
publishDate |
2016-01-01 |
description |
La présente contribution ambitionne de revenir sur l’élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l’un d’oral transcrit et l’autre de sources écrites – de taille modeste mais constitués afin qu’ils présentent un haut rendement exploratoire. L’objectif de ce retour est de réexaminer les choix de balisage XML mis en œuvre au sein de chacun et d’étudier la pertinence d’une annotation plus fine de certains phénomènes non encore traités. Après avoir présenté le contexte qui a motivé l’élaboration de ces corpus puis leurs contenus, nous exposons les éléments majeurs du balisage de chacun, en valorisant ce qui les différencie, avant d’entrer plus finement dans leurs données et d’analyser l’impact des modalités ou des moments de production des énoncés sur leur forme, et conséquemment la pertinence d’une annotation de ces paramètres dans le balisage. Si les deux corpus ont à l’heure actuelle un haut rendement exploratoire du fait de leur thématisation et de la sélection de commentaires, donc de productions d’un ensemble de locuteurs spécialisés qui s’adressent à un large public, la spécificité des situations d’énonciation propres aux énoncés oraux ou écrits de chaque corpus a un impact sur la nature des données observables au sein de chacun. Ainsi, d’une certaine manière, selon le média de diffusion, les commentaires qui permettent au public de suivre les matchs qu’il ne voit pas ne l’informent pas de manière équivalente. Nous apprécierons comment le balisage XML peut faciliter les analyses des discours et les études lexicales au sein de ces corpus. |
url |
http://dx.doi.org/10.1051/shsconf/20162711004 |
work_keys_str_mv |
AT gasiglianathalie enrichirlebalisagedecorpusfootballistiquespourenaugmenterlepouvoirdocumentaire1 |
_version_ |
1724296137720987648 |