Perspectives on the utility of linguistic knowledge in English word prediction

Abstract The problem addressed in the present thesis is the utility of linguistic knowledge in one domain of language technology, word prediction. An important characteristic of any practical language technology application is its level of performance, and it is therefore essential to be able to...

Full description

Bibliographic Details
Main Author: Väyrynen, P. (Pertti)
Format: Doctoral Thesis
Language:English
Published: University of Oulu 2005
Subjects:
Online Access:http://urn.fi/urn:isbn:951427850X
http://nbn-resolving.de/urn:isbn:951427850X
id ndltd-oulo.fi-oai-oulu.fi-isbn951-42-7850-X
record_format oai_dc
collection NDLTD
language English
format Doctoral Thesis
sources NDLTD
topic computational linguistics
language technology
linguistic knowledge
word completion
word prediction
englannin kieli
ennakointi
kieliteknologia
leksikologia
sananennakointi
tietokonelingvistiikka
spellingShingle computational linguistics
language technology
linguistic knowledge
word completion
word prediction
englannin kieli
ennakointi
kieliteknologia
leksikologia
sananennakointi
tietokonelingvistiikka
Väyrynen, P. (Pertti)
Perspectives on the utility of linguistic knowledge in English word prediction
description Abstract The problem addressed in the present thesis is the utility of linguistic knowledge in one domain of language technology, word prediction. An important characteristic of any practical language technology application is its level of performance, and it is therefore essential to be able to measure this quantitatively. The main questions in the present thesis are the following: (1) how can a significant improvement in performance be obtained in practical language technology products, and (2) what is the cost of improved performance in terms of the sources of linguistic knowledge that should be incorporated in them? On a more general level, the major findings suggest that the practical utility of linguistic knowledge in language technology should generally be evaluated from at least three larger perspectives: (1) language, (2) technology, and (3) the user of the application. From these three perspectives, a variety of constraints can be identified which either increase or decrease the usefulness of linguistic knowledge in practical language technology applications. A statistical state-of-the-art word prediction system was developed and tested in the empirical part of this work, and testing the performance of a few prediction methods that utilise sources of linguistic knowledge showed that they can perform just as well as some existing state-of-the-art statistical prediction methods. When the syllable-initial characters of the words to be predicted were used, for example, the expected length of the search key in a running text with a prediction list of ten tokens was only 1.59 characters, while the use of information on the parts of speech of the word tokens to be predicted in a system with five lists representing five parts of speech resulted only in a three percent improvement in performance. One of the practical implications of these results for the field of language technology is that a significant improvement in the performance of a word prediction system may be achieved only incrementally. The simultaneous use of several techniques may in turn dilute the real-time operation of the prediction system, so that it is unable to suggest candidate words quickly enough for the user. It can also affect some performance aspects such as the average percentage of keystrokes/characters saved. === Abstrakti Tässä työssä tutkittiin lingvistisen tiedon hyödyllisyyttä kieliteknologian yhdellä sovellusalueella eli sanan ennakointia englannin kielessä. Sovellus pyrkii ennakoimaan sanan, jota käyttäjä kirjoittaa parhaillaan tai aikoo kirjoittaa seuraavaksi. Nämä sovellukset ovat hyödyllisiä esim. pienissä päätelaitteissa, joissa tekstin tuottaminen on hankalaa. Eräs kieliteknologiasovellusten tärkeimmistä ominaisuuksista on niiden tehokas toiminta ja suorituskyky, jonka tulisi olla kvantitatiivisesti mitattavissa. Oleellisin tutkimuskysymys on näin ollen: (1) miten käytännön kieliteknologiasovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla ja (2) mitä tämä vaatii käytännössä? Yleisellä tasolla tutkimuksen tärkeimmät tulokset ovat seuraavat: lingvistisen tiedon käytännön hyödyllisyyttä pitäisi arvioida ainakin kolmesta näkökulmasta, jotka ovat: (1) kielen näkökulma, (2) teknologian näkökulma ja (3) sovelluksen käyttäjän näkökulma. Näiden kolmen näkökulman avulla voidaan määrittää joukko tekijöitä, jotka joko lisäävät tai vähentävät lingvistisen tiedon hyödyllisyyttä käytännön kieliteknologiasovelluksissa. Työn empiirisessä osassa kehitettiin tilastollinen sananennakointisovellus englannin kieleen hyödyntäen parhaiten toimivia ennakointitekniikoita yhdessä ja samassa järjestelmässä. Kehitetyssä järjestelmässä suorituskyky vastaa täysin aiempien järjestelmien suorituskykyä. Työssä testattiin myös joitakin uusia, lingvististä tietoa hyödyntäviä ennakointitekniikoita, joiden suorituskyky vastasi tiettyjen tilastollisten ennakointimenetelmien suorituskykyä. Tutkimuksen tuloksista voidaan päätellä muun muassa, että sananennakointisovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla vain käyttämällä samanaikaisesti useita lingvistisen tiedon lähteitä. Tämä taas saattaa hidastaa sovelluksen reaaliaikaista toimintaa ja vaikuttaa sovelluksen suorituskykyyn silloin kun se mitataan näppäinsäästönä merkkisäästön asemesta.
author Väyrynen, P. (Pertti)
author_facet Väyrynen, P. (Pertti)
author_sort Väyrynen, P. (Pertti)
title Perspectives on the utility of linguistic knowledge in English word prediction
title_short Perspectives on the utility of linguistic knowledge in English word prediction
title_full Perspectives on the utility of linguistic knowledge in English word prediction
title_fullStr Perspectives on the utility of linguistic knowledge in English word prediction
title_full_unstemmed Perspectives on the utility of linguistic knowledge in English word prediction
title_sort perspectives on the utility of linguistic knowledge in english word prediction
publisher University of Oulu
publishDate 2005
url http://urn.fi/urn:isbn:951427850X
http://nbn-resolving.de/urn:isbn:951427850X
work_keys_str_mv AT vayrynenppertti perspectivesontheutilityoflinguisticknowledgeinenglishwordprediction
_version_ 1718553683455639552
spelling ndltd-oulo.fi-oai-oulu.fi-isbn951-42-7850-X2017-10-14T04:16:33ZPerspectives on the utility of linguistic knowledge in English word predictionVäyrynen, P. (Pertti)info:eu-repo/semantics/openAccess© University of Oulu, 2005info:eu-repo/semantics/altIdentifier/pissn/0355-3205info:eu-repo/semantics/altIdentifier/eissn/1796-2218computational linguisticslanguage technologylinguistic knowledgeword completionword predictionenglannin kieliennakointikieliteknologialeksikologiasananennakointitietokonelingvistiikka Abstract The problem addressed in the present thesis is the utility of linguistic knowledge in one domain of language technology, word prediction. An important characteristic of any practical language technology application is its level of performance, and it is therefore essential to be able to measure this quantitatively. The main questions in the present thesis are the following: (1) how can a significant improvement in performance be obtained in practical language technology products, and (2) what is the cost of improved performance in terms of the sources of linguistic knowledge that should be incorporated in them? On a more general level, the major findings suggest that the practical utility of linguistic knowledge in language technology should generally be evaluated from at least three larger perspectives: (1) language, (2) technology, and (3) the user of the application. From these three perspectives, a variety of constraints can be identified which either increase or decrease the usefulness of linguistic knowledge in practical language technology applications. A statistical state-of-the-art word prediction system was developed and tested in the empirical part of this work, and testing the performance of a few prediction methods that utilise sources of linguistic knowledge showed that they can perform just as well as some existing state-of-the-art statistical prediction methods. When the syllable-initial characters of the words to be predicted were used, for example, the expected length of the search key in a running text with a prediction list of ten tokens was only 1.59 characters, while the use of information on the parts of speech of the word tokens to be predicted in a system with five lists representing five parts of speech resulted only in a three percent improvement in performance. One of the practical implications of these results for the field of language technology is that a significant improvement in the performance of a word prediction system may be achieved only incrementally. The simultaneous use of several techniques may in turn dilute the real-time operation of the prediction system, so that it is unable to suggest candidate words quickly enough for the user. It can also affect some performance aspects such as the average percentage of keystrokes/characters saved. Abstrakti Tässä työssä tutkittiin lingvistisen tiedon hyödyllisyyttä kieliteknologian yhdellä sovellusalueella eli sanan ennakointia englannin kielessä. Sovellus pyrkii ennakoimaan sanan, jota käyttäjä kirjoittaa parhaillaan tai aikoo kirjoittaa seuraavaksi. Nämä sovellukset ovat hyödyllisiä esim. pienissä päätelaitteissa, joissa tekstin tuottaminen on hankalaa. Eräs kieliteknologiasovellusten tärkeimmistä ominaisuuksista on niiden tehokas toiminta ja suorituskyky, jonka tulisi olla kvantitatiivisesti mitattavissa. Oleellisin tutkimuskysymys on näin ollen: (1) miten käytännön kieliteknologiasovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla ja (2) mitä tämä vaatii käytännössä? Yleisellä tasolla tutkimuksen tärkeimmät tulokset ovat seuraavat: lingvistisen tiedon käytännön hyödyllisyyttä pitäisi arvioida ainakin kolmesta näkökulmasta, jotka ovat: (1) kielen näkökulma, (2) teknologian näkökulma ja (3) sovelluksen käyttäjän näkökulma. Näiden kolmen näkökulman avulla voidaan määrittää joukko tekijöitä, jotka joko lisäävät tai vähentävät lingvistisen tiedon hyödyllisyyttä käytännön kieliteknologiasovelluksissa. Työn empiirisessä osassa kehitettiin tilastollinen sananennakointisovellus englannin kieleen hyödyntäen parhaiten toimivia ennakointitekniikoita yhdessä ja samassa järjestelmässä. Kehitetyssä järjestelmässä suorituskyky vastaa täysin aiempien järjestelmien suorituskykyä. Työssä testattiin myös joitakin uusia, lingvististä tietoa hyödyntäviä ennakointitekniikoita, joiden suorituskyky vastasi tiettyjen tilastollisten ennakointimenetelmien suorituskykyä. Tutkimuksen tuloksista voidaan päätellä muun muassa, että sananennakointisovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla vain käyttämällä samanaikaisesti useita lingvistisen tiedon lähteitä. Tämä taas saattaa hidastaa sovelluksen reaaliaikaista toimintaa ja vaikuttaa sovelluksen suorituskykyyn silloin kun se mitataan näppäinsäästönä merkkisäästön asemesta. University of Oulu2005-11-11info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://urn.fi/urn:isbn:951427850Xurn:isbn:951427850Xeng