Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes

Šiame darbe analizuojamos trys egzistuojančios tekstynų sistemos. Lietuvių kalbos tekstyno paieška sukurta su Lucene paieškos sistema, vokiečių tekstyno lietuviškų tekstų paieška sukurta MySQL pagrindu, bei britų nacionalinio tekstyno paieška sukurta su Xaira programine įranga. Plačiau aprašomas šių...

Full description

Bibliographic Details
Main Author: Šadauskas, Marius
Other Authors: Melninkaitė, Vida
Format: Dissertation
Language:Lithuanian
Published: Lithuanian Academic Libraries Network (LABT) 2011
Subjects:
TEI
Online Access:http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2011~D_20110615_113141-56202/DS.005.0.01.ETD
id ndltd-LABT_ETD-oai-elaba.lt-LT-eLABa-0001-E.02~2011~D_20110615_113141-56202
record_format oai_dc
spelling ndltd-LABT_ETD-oai-elaba.lt-LT-eLABa-0001-E.02~2011~D_20110615_113141-562022014-01-16T03:39:51Z2011-06-15litInformaticsŠadauskas, MariusLietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazesLithuanian language corpus storage using relational database systemsLithuanian Academic Libraries Network (LABT)Šiame darbe analizuojamos trys egzistuojančios tekstynų sistemos. Lietuvių kalbos tekstyno paieška sukurta su Lucene paieškos sistema, vokiečių tekstyno lietuviškų tekstų paieška sukurta MySQL pagrindu, bei britų nacionalinio tekstyno paieška sukurta su Xaira programine įranga. Plačiau aprašomas šių sistemų indeksavimo ir paieškos veikimas. Taip pat Fedora ir DSpace repozitoriumų sistemos, kurios buvo išbandytos ir palygintos tarpusavyje. Nei viena iš egzistuojančių sistemų neturi galimybės indeksuoti morfologiškai žymėtus tekstynus ir atlikti paiešką juose, todėl pasiūlomas prototipinis tekstyno sistemos sprendimas, kuris leistų tai atlikti. Tekstynai saugomi XML dokumentuose ir yra morfologiškai sužymėti TEI P5 formatu. Prototipinė sistema leidžia atlikti paiešką pagal konkretų žodį, pagal pagrindinę žodžio formą - lemą. Rezultatai pateikiami vartotojui patogia forma – sakiniais. Paieškos rezultatuose yra pateikiami sakiniai su ieškotu žodžiu ir su ieškoto žodžio lema, taip pateikiant daugiau rezultatų. Pasiūlytas prototipinės sistemos modeliui sukurti panaudojus vieną iš reliacinių duomenų bazių sistemų – MySQL, taip pat XPath ir PHP programavimo kalba.In this Master Thesis has been researched three existing corpus systems. Lithuanian corpus search system, which is created by Lucene search engine. German corpus search system which uses Lithuanian Wikipedia texts as corpus. This system which is created by MySQL. British national corpus search system which is created by Xaira software. All these systems are analyzed and explained how indexing and searching components works. Also two popular repository systems were taken and researched deeply, it’s Fedora and DSpace. None of existing systems had morphological search option, that is why prototype system is created. All texts are stored in XML files which are marked by TEI P5 format. Prototype system allows perform a search by exact word and by main word form called lemma. Results are displayed by sentences. At first system displays sentences of exact word and sentences where same lemma as search word exists. Prototype system is created using MySQL database system also for programming PHP and XPath is used.Morfologinė paieškaTekstynaiTEIRepozitoriumaiMophological searchCorpusTEIRepositoryMaster thesisMelninkaitė, VidaJanickienė, DanguolėVytautas Magnus UniversityVytautas Magnus Universityhttp://vddb.laba.lt/obj/LT-eLABa-0001:E.02~2011~D_20110615_113141-56202LT-eLABa-0001:E.02~2011~D_20110615_113141-56202VDU-nmeaofaprjs-20110520-100023http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2011~D_20110615_113141-56202/DS.005.0.01.ETDUnrestrictedapplication/pdf
collection NDLTD
language Lithuanian
format Dissertation
sources NDLTD
topic Informatics
Morfologinė paieška
Tekstynai
TEI
Repozitoriumai
Mophological search
Corpus
TEI
Repository
spellingShingle Informatics
Morfologinė paieška
Tekstynai
TEI
Repozitoriumai
Mophological search
Corpus
TEI
Repository
Šadauskas, Marius
Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes
description Šiame darbe analizuojamos trys egzistuojančios tekstynų sistemos. Lietuvių kalbos tekstyno paieška sukurta su Lucene paieškos sistema, vokiečių tekstyno lietuviškų tekstų paieška sukurta MySQL pagrindu, bei britų nacionalinio tekstyno paieška sukurta su Xaira programine įranga. Plačiau aprašomas šių sistemų indeksavimo ir paieškos veikimas. Taip pat Fedora ir DSpace repozitoriumų sistemos, kurios buvo išbandytos ir palygintos tarpusavyje. Nei viena iš egzistuojančių sistemų neturi galimybės indeksuoti morfologiškai žymėtus tekstynus ir atlikti paiešką juose, todėl pasiūlomas prototipinis tekstyno sistemos sprendimas, kuris leistų tai atlikti. Tekstynai saugomi XML dokumentuose ir yra morfologiškai sužymėti TEI P5 formatu. Prototipinė sistema leidžia atlikti paiešką pagal konkretų žodį, pagal pagrindinę žodžio formą - lemą. Rezultatai pateikiami vartotojui patogia forma – sakiniais. Paieškos rezultatuose yra pateikiami sakiniai su ieškotu žodžiu ir su ieškoto žodžio lema, taip pateikiant daugiau rezultatų. Pasiūlytas prototipinės sistemos modeliui sukurti panaudojus vieną iš reliacinių duomenų bazių sistemų – MySQL, taip pat XPath ir PHP programavimo kalba. === In this Master Thesis has been researched three existing corpus systems. Lithuanian corpus search system, which is created by Lucene search engine. German corpus search system which uses Lithuanian Wikipedia texts as corpus. This system which is created by MySQL. British national corpus search system which is created by Xaira software. All these systems are analyzed and explained how indexing and searching components works. Also two popular repository systems were taken and researched deeply, it’s Fedora and DSpace. None of existing systems had morphological search option, that is why prototype system is created. All texts are stored in XML files which are marked by TEI P5 format. Prototype system allows perform a search by exact word and by main word form called lemma. Results are displayed by sentences. At first system displays sentences of exact word and sentences where same lemma as search word exists. Prototype system is created using MySQL database system also for programming PHP and XPath is used.
author2 Melninkaitė, Vida
author_facet Melninkaitė, Vida
Šadauskas, Marius
author Šadauskas, Marius
author_sort Šadauskas, Marius
title Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes
title_short Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes
title_full Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes
title_fullStr Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes
title_full_unstemmed Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes
title_sort lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes
publisher Lithuanian Academic Libraries Network (LABT)
publishDate 2011
url http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2011~D_20110615_113141-56202/DS.005.0.01.ETD
work_keys_str_mv AT sadauskasmarius lietuviukalbostekstynusaugojimasnaudojantreliacinesduomenubazes
AT sadauskasmarius lithuanianlanguagecorpusstorageusingrelationaldatabasesystems
_version_ 1716624527371272192