Outomatiese genreklassifikasie vir Afrikaans

Op die terrein van teksverwerking speel die metadata oor ’n bepaalde teks in baie gevalle ’n belangrike rol. Sodanige metadata word dikwels toegevoeg met behulp van outomatiese teksklassifiseerders wat op grond van die inhoud van ’n teks een of meer vooraf bepaalde klasse of kategorieë outomaties aa...

Full description

Bibliographic Details
Main Authors: Dirk Snyman, Gerhard van Huyssteen, Walter Daelemans
Format: Article
Language:Afrikaans
Published: South African Journal of Science and Technology 2014-02-01
Series:South African Journal of Science and Technology
Subjects:
Online Access:http://www.satnt.ac.za/index.php/satnt/article/view/759
id doaj-3a442416a32e4ffeaf07b332fe5e8eb9
record_format Article
spelling doaj-3a442416a32e4ffeaf07b332fe5e8eb92020-11-25T04:04:35ZafrSouth African Journal of Science and TechnologySouth African Journal of Science and Technology 0254-34862222-41732014-02-0133110.4102/satnt.v33i1.7591148Outomatiese genreklassifikasie vir AfrikaansDirk Snyman0Gerhard van Huyssteen1Walter Daelemans2Centre for Text Technology, North-West UniversityCentre for Text Technology, North-West UniversityComputational Linguistics and Psycholinguistics Research Group, University of AntwerpenOp die terrein van teksverwerking speel die metadata oor ’n bepaalde teks in baie gevalle ’n belangrike rol. Sodanige metadata word dikwels toegevoeg met behulp van outomatiese teksklassifiseerders wat op grond van die inhoud van ’n teks een of meer vooraf bepaalde klasse of kategorieë outomaties aan ’n teks toeken. Een van die dimensies waarvolgens ’n teks geklassifiseer kan word, is die genre van ’n teks en in hierdie studie word die ontwikkeling van ’n outomatiese genreklassifikasiesisteem in ’n hulpbronskaars omgewing voorgehou. (Ander dimensies sluit in: outeur van ’n teks, domein van tekste, informele teenoor formele tekste, ensovoorts.) Die artikel het ten doel om ’n eksperimentele ondersoek te loods na bestaande genreklassifikasiesisteme, en om dan die tegnieke en benaderings te implementeer vir Afrikaans (as voorbeeld van ’n hulpbronskaars taal). Met die ontwikkeling van ’n outomatiese genreklassifikasiesisteem is daar ’n reeks veranderlikes wat in gedagte gehou moet word en wat ’n invloed op die prestasie van masjienleerbenaderings het (d.i. die algoritme wat gebruik word, die hoeveelheid afrigtingsdata, en die datavoorstelling as eienskappe). As dié veranderlikes reg hanteer word en ’n optimale versameling van hierdie veranderlikes geïdentifiseer kan word, kan die ontwikkeling van ’n genreklassifikasiesisteem suksesvol gedoen word. In die studie word daar ’n genreklassifikasiesisteem daargestel deur gebruik te maak van die volgende benadering wat eksperimenteel geïdentifiseer is: Die implementering van ’n MNB-algoritme, afgerig met woordversamelingbenadering as eienskapstel. Dié sisteem lewer ’n resulterende <em>f</em>-telling (prestasiesyfer) van 0.929.http://www.satnt.ac.za/index.php/satnt/article/view/759Genreklassifikasie, Hulpbronskaars Tale, Masjienleer, Mensetaaltegnologie, Natuurliketaalprosessering
collection DOAJ
language Afrikaans
format Article
sources DOAJ
author Dirk Snyman
Gerhard van Huyssteen
Walter Daelemans
spellingShingle Dirk Snyman
Gerhard van Huyssteen
Walter Daelemans
Outomatiese genreklassifikasie vir Afrikaans
South African Journal of Science and Technology
Genreklassifikasie, Hulpbronskaars Tale, Masjienleer, Mensetaaltegnologie, Natuurliketaalprosessering
author_facet Dirk Snyman
Gerhard van Huyssteen
Walter Daelemans
author_sort Dirk Snyman
title Outomatiese genreklassifikasie vir Afrikaans
title_short Outomatiese genreklassifikasie vir Afrikaans
title_full Outomatiese genreklassifikasie vir Afrikaans
title_fullStr Outomatiese genreklassifikasie vir Afrikaans
title_full_unstemmed Outomatiese genreklassifikasie vir Afrikaans
title_sort outomatiese genreklassifikasie vir afrikaans
publisher South African Journal of Science and Technology
series South African Journal of Science and Technology
issn 0254-3486
2222-4173
publishDate 2014-02-01
description Op die terrein van teksverwerking speel die metadata oor ’n bepaalde teks in baie gevalle ’n belangrike rol. Sodanige metadata word dikwels toegevoeg met behulp van outomatiese teksklassifiseerders wat op grond van die inhoud van ’n teks een of meer vooraf bepaalde klasse of kategorieë outomaties aan ’n teks toeken. Een van die dimensies waarvolgens ’n teks geklassifiseer kan word, is die genre van ’n teks en in hierdie studie word die ontwikkeling van ’n outomatiese genreklassifikasiesisteem in ’n hulpbronskaars omgewing voorgehou. (Ander dimensies sluit in: outeur van ’n teks, domein van tekste, informele teenoor formele tekste, ensovoorts.) Die artikel het ten doel om ’n eksperimentele ondersoek te loods na bestaande genreklassifikasiesisteme, en om dan die tegnieke en benaderings te implementeer vir Afrikaans (as voorbeeld van ’n hulpbronskaars taal). Met die ontwikkeling van ’n outomatiese genreklassifikasiesisteem is daar ’n reeks veranderlikes wat in gedagte gehou moet word en wat ’n invloed op die prestasie van masjienleerbenaderings het (d.i. die algoritme wat gebruik word, die hoeveelheid afrigtingsdata, en die datavoorstelling as eienskappe). As dié veranderlikes reg hanteer word en ’n optimale versameling van hierdie veranderlikes geïdentifiseer kan word, kan die ontwikkeling van ’n genreklassifikasiesisteem suksesvol gedoen word. In die studie word daar ’n genreklassifikasiesisteem daargestel deur gebruik te maak van die volgende benadering wat eksperimenteel geïdentifiseer is: Die implementering van ’n MNB-algoritme, afgerig met woordversamelingbenadering as eienskapstel. Dié sisteem lewer ’n resulterende <em>f</em>-telling (prestasiesyfer) van 0.929.
topic Genreklassifikasie, Hulpbronskaars Tale, Masjienleer, Mensetaaltegnologie, Natuurliketaalprosessering
url http://www.satnt.ac.za/index.php/satnt/article/view/759
work_keys_str_mv AT dirksnyman outomatiesegenreklassifikasievirafrikaans
AT gerhardvanhuyssteen outomatiesegenreklassifikasievirafrikaans
AT walterdaelemans outomatiesegenreklassifikasievirafrikaans
_version_ 1724436044052430848