Summary: | Ett problem i bedömning av skrivprov är bristande samstämmighet mellan bedömare. Att fler än en person bedömer samma skrivprov är ett vanligt sätt att öka samstämmigheten, men denna metod är tidskrävande och kostsam. Ett automatiskt bedömningsverktyg, som ger bedömaren stöd på ett effektivt och förutsägbart sätt, vore därför ett användbart hjälpmedel. I artikeln presenteras en pilotundersökning inför ett framtida arbete med automatisk bedömning av skrivprov, där användbarheten av fyra olika textmått i automatisk bedömning undersöks: textlängd, ordlängd, ordvariationsindex och nominalkvot. Materialet utgörs av två korpusar med benchmarktexter från nationella prov, Np 1 och Np 3. Varje prov ges i två olika skolämnen, svenska och svenska som andraspråk. I analysen beräknas medel- och medianvärden samt korrelationer för textmåtten och texternas betyg. Resultatet visar att skillnaderna mellan textmåttens värden i de två korpusarna är relativt stora. I Np 3 uppmäts generellt högre värden för de fyra textmåtten än i Np 1. Vidare korrelerar samtliga undersökta textmått med betyg i Np 1, medan de textmått som visar starkast korrelation i Np 1 inte på ett signifikant sätt korrelerar med betyg i Np 3. Dessutom visar analysen att texter från ett av proven, som har samma betyg men har tillkommit inom olika svenskämnen, ligger nära varandra utifrån de objektiva textmåtten. I ett framtida arbete inför automatisk bedömning av skrivprov måste användningen av textmåtten anpassas till det specifika provet. Vidare bör en automatisk bedömning omfatta många fler textegenskaper än de som mäts med de undersökta måtten.
Nyckelord: skrivbedömning, automatisk bedömning, nationella prov, elevtexter, bedömning i svenska och svenska som andraspråk
Analyzing Quantity in Qualitatively Assessed Student Texts – a Future Tool for Fair Assessment?
Abstract
In assessing writing one problem is the lack of rater consistency. Letting more than one rater take part in the assessment of the same test is one way of improving rater consistency, but this method is time-consuming and expensive. A tool for automated assessment, giving the human rater support in an effective and predictable way, would therefore be useful. In this article a pilot study is presented, where the usefulness of four automatic text measures in the assessment of writing tests are investigated: text length, word length, word variation and nominal ratio. The data consists of two corpora with benchmark texts from two national tests, Np 1 and Np 3. Each test is given in both Swedish and Swedish as a second language. Mean and median values are calculated, as well as correlations for the text measures and the assessment grades of the texts. The results show important differences between the values of the text measures from the two tests. In Np 3 the values for text measures are generally higher than in Np 1. Further, the four text measures correlate significantly with grades in Np 1, but the measures correlating strongest in Np 1 do not show a significant correlation in Np 3. In one of the tests, the texts with the same assessment grade but different school subjects are very similar according to the text measures. The conclusion is that a tool for automated assessment must be adapted to a specific writing test. Furthermore, an automated assessment should include the analysis of a greater amount of text qualities than those having been the focus of this study.
Keywords: assessing writing, automated assessment, national tests, student texts, assessment in Swedish and Swedish as a second language
|