Conditional random fields for noisy text normalisation

Thesis (MScEng) -- Stellenbosch University, 2014. === ENGLISH ABSTRACT: The increasing popularity of microblogging services such as Twitter means that more and more unstructured data is available for analysis. The informal language usage in these media presents a problem for traditional text minin...

Full description

Bibliographic Details
Main Author: Coetsee, Dirko
Other Authors: Du Preez, Johan A.
Format: Others
Language:en_ZA
Published: Stellenbosch : Stellenbosch University 2015
Subjects:
Online Access:http://hdl.handle.net/10019.1/96064
id ndltd-netd.ac.za-oai-union.ndltd.org-sun-oai-scholar.sun.ac.za-10019.1-96064
record_format oai_dc
spelling ndltd-netd.ac.za-oai-union.ndltd.org-sun-oai-scholar.sun.ac.za-10019.1-960642016-01-29T04:03:06Z Conditional random fields for noisy text normalisation Coetsee, Dirko Du Preez, Johan A. Stellenbosch University. Faculty of Engineering. Department of Electrical and Electronic Engineering. Conditional random fields Noisy text Spelling correction Mikroblogging Unstructured data Data mining Text normalisation Tokeniser UCTD Thesis (MScEng) -- Stellenbosch University, 2014. ENGLISH ABSTRACT: The increasing popularity of microblogging services such as Twitter means that more and more unstructured data is available for analysis. The informal language usage in these media presents a problem for traditional text mining and natural language processing tools. We develop a pre-processor to normalise this noisy text so that useful information can be extracted with standard tools. A system consisting of a tokeniser, out-of-vocabulary token identifier, correct candidate generator, and N-gram language model is proposed. We compare the performance of generative and discriminative probabilistic models for these different modules. The effect of normalising the training and testing data on the performance of a tweet sentiment classifier is investigated. A linear-chain conditional random field, which is a discriminative model, is found to work better than its generative counterpart for the tokenisation module, achieving a 0.76% character error rate compared to 1.41% for the finite state automaton. For the candidate generation module, however, the generative weighted finite state transducer works better, getting the correct clean version of a word right 36% of the time on the first guess, while the discriminatively trained hidden alignment conditional random field only achieves 6%. The use of a normaliser as a pre-processing step does not significantly affect the performance of the sentiment classifier. AFRIKAANSE OPSOMMING: Mikro-webjoernale soos Twitter word al hoe meer gewild, en die hoeveelheid ongestruktureerde data wat beskikbaar is vir analise groei daarom soos nooit tevore nie. Die informele taalgebruik in hierdie media maak dit egter moeilik om tradisionele tegnieke en bestaande dataverwerkingsgereedskap toe te pas. ’n Stelsel wat hierdie ruiserige teks normaliseer word ontwikkel sodat bestaande pakkette gebruik kan word om die teks verder te verwerk. Die stelsel bestaan uit ’n module wat die teks in woordeenhede opdeel, ’n module wat woorde identifiseer wat gekorrigeer moet word, ’n module wat dan kandidaat korreksies voorstel, en ’n module wat ’n taalmodel toepas om die mees waarskynlike skoon teks te vind. Die verrigting van diskriminatiewe en generatiewe modelle vir ’n paar van hierdie modules word vergelyk en die invloed wat so ’n normaliseerder op die akkuraatheid van ’n sentimentklassifiseerder het word ondersoek. Ons bevind dat ’n lineêre-ketting voorwaardelike toevalsveld—’n diskriminatiewe model — beter werk as sy generatiewe eweknie vir tekssegmentering. Die voorwaardelike toevalsveld-model behaal ’n karakterfoutkoers van 0.76%, terwyl die toestandsmasjien-model 1.41% behaal. Die toestantsmasjien-model werk weer beter om kandidaat woorde te genereer as die verskuilde belyningsmodel wat ons geïmplementeer het. Die toestandsmasjien kry 36% van die tyd die regte weergawe van ’n woord met die eerste raaiskoot, terwyl die diskriminatiewe model dit slegs 6% van die tyd kan doen. Laastens het ons bevind dat die vooraf normalisering van Twitter boodskappe nie ’n beduidende effek op die akkuraatheid van ’n sentiment klassifiseerder het nie. 2015-01-13T11:50:02Z 2015-01-13T11:50:02Z 2014-12 Thesis http://hdl.handle.net/10019.1/96064 en_ZA Stellenbosch University xv, 145 p. : ill. Stellenbosch : Stellenbosch University
collection NDLTD
language en_ZA
format Others
sources NDLTD
topic Conditional random fields
Noisy text
Spelling correction
Mikroblogging
Unstructured data
Data mining
Text normalisation
Tokeniser
UCTD
spellingShingle Conditional random fields
Noisy text
Spelling correction
Mikroblogging
Unstructured data
Data mining
Text normalisation
Tokeniser
UCTD
Coetsee, Dirko
Conditional random fields for noisy text normalisation
description Thesis (MScEng) -- Stellenbosch University, 2014. === ENGLISH ABSTRACT: The increasing popularity of microblogging services such as Twitter means that more and more unstructured data is available for analysis. The informal language usage in these media presents a problem for traditional text mining and natural language processing tools. We develop a pre-processor to normalise this noisy text so that useful information can be extracted with standard tools. A system consisting of a tokeniser, out-of-vocabulary token identifier, correct candidate generator, and N-gram language model is proposed. We compare the performance of generative and discriminative probabilistic models for these different modules. The effect of normalising the training and testing data on the performance of a tweet sentiment classifier is investigated. A linear-chain conditional random field, which is a discriminative model, is found to work better than its generative counterpart for the tokenisation module, achieving a 0.76% character error rate compared to 1.41% for the finite state automaton. For the candidate generation module, however, the generative weighted finite state transducer works better, getting the correct clean version of a word right 36% of the time on the first guess, while the discriminatively trained hidden alignment conditional random field only achieves 6%. The use of a normaliser as a pre-processing step does not significantly affect the performance of the sentiment classifier. === AFRIKAANSE OPSOMMING: Mikro-webjoernale soos Twitter word al hoe meer gewild, en die hoeveelheid ongestruktureerde data wat beskikbaar is vir analise groei daarom soos nooit tevore nie. Die informele taalgebruik in hierdie media maak dit egter moeilik om tradisionele tegnieke en bestaande dataverwerkingsgereedskap toe te pas. ’n Stelsel wat hierdie ruiserige teks normaliseer word ontwikkel sodat bestaande pakkette gebruik kan word om die teks verder te verwerk. Die stelsel bestaan uit ’n module wat die teks in woordeenhede opdeel, ’n module wat woorde identifiseer wat gekorrigeer moet word, ’n module wat dan kandidaat korreksies voorstel, en ’n module wat ’n taalmodel toepas om die mees waarskynlike skoon teks te vind. Die verrigting van diskriminatiewe en generatiewe modelle vir ’n paar van hierdie modules word vergelyk en die invloed wat so ’n normaliseerder op die akkuraatheid van ’n sentimentklassifiseerder het word ondersoek. Ons bevind dat ’n lineêre-ketting voorwaardelike toevalsveld—’n diskriminatiewe model — beter werk as sy generatiewe eweknie vir tekssegmentering. Die voorwaardelike toevalsveld-model behaal ’n karakterfoutkoers van 0.76%, terwyl die toestandsmasjien-model 1.41% behaal. Die toestantsmasjien-model werk weer beter om kandidaat woorde te genereer as die verskuilde belyningsmodel wat ons geïmplementeer het. Die toestandsmasjien kry 36% van die tyd die regte weergawe van ’n woord met die eerste raaiskoot, terwyl die diskriminatiewe model dit slegs 6% van die tyd kan doen. Laastens het ons bevind dat die vooraf normalisering van Twitter boodskappe nie ’n beduidende effek op die akkuraatheid van ’n sentiment klassifiseerder het nie.
author2 Du Preez, Johan A.
author_facet Du Preez, Johan A.
Coetsee, Dirko
author Coetsee, Dirko
author_sort Coetsee, Dirko
title Conditional random fields for noisy text normalisation
title_short Conditional random fields for noisy text normalisation
title_full Conditional random fields for noisy text normalisation
title_fullStr Conditional random fields for noisy text normalisation
title_full_unstemmed Conditional random fields for noisy text normalisation
title_sort conditional random fields for noisy text normalisation
publisher Stellenbosch : Stellenbosch University
publishDate 2015
url http://hdl.handle.net/10019.1/96064
work_keys_str_mv AT coetseedirko conditionalrandomfieldsfornoisytextnormalisation
_version_ 1718164264796028928