Lietuvių kalbos tekstynų saugojimas naudojant reliacines duomenų bazes

Šiame darbe analizuojamos trys egzistuojančios tekstynų sistemos. Lietuvių kalbos tekstyno paieška sukurta su Lucene paieškos sistema, vokiečių tekstyno lietuviškų tekstų paieška sukurta MySQL pagrindu, bei britų nacionalinio tekstyno paieška sukurta su Xaira programine įranga. Plačiau aprašomas šių...

Full description

Bibliographic Details
Main Author: Šadauskas, Marius
Other Authors: Melninkaitė, Vida
Format: Dissertation
Language:Lithuanian
Published: Lithuanian Academic Libraries Network (LABT) 2011
Subjects:
TEI
Online Access:http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2011~D_20110615_113141-56202/DS.005.0.01.ETD
Description
Summary:Šiame darbe analizuojamos trys egzistuojančios tekstynų sistemos. Lietuvių kalbos tekstyno paieška sukurta su Lucene paieškos sistema, vokiečių tekstyno lietuviškų tekstų paieška sukurta MySQL pagrindu, bei britų nacionalinio tekstyno paieška sukurta su Xaira programine įranga. Plačiau aprašomas šių sistemų indeksavimo ir paieškos veikimas. Taip pat Fedora ir DSpace repozitoriumų sistemos, kurios buvo išbandytos ir palygintos tarpusavyje. Nei viena iš egzistuojančių sistemų neturi galimybės indeksuoti morfologiškai žymėtus tekstynus ir atlikti paiešką juose, todėl pasiūlomas prototipinis tekstyno sistemos sprendimas, kuris leistų tai atlikti. Tekstynai saugomi XML dokumentuose ir yra morfologiškai sužymėti TEI P5 formatu. Prototipinė sistema leidžia atlikti paiešką pagal konkretų žodį, pagal pagrindinę žodžio formą - lemą. Rezultatai pateikiami vartotojui patogia forma – sakiniais. Paieškos rezultatuose yra pateikiami sakiniai su ieškotu žodžiu ir su ieškoto žodžio lema, taip pateikiant daugiau rezultatų. Pasiūlytas prototipinės sistemos modeliui sukurti panaudojus vieną iš reliacinių duomenų bazių sistemų – MySQL, taip pat XPath ir PHP programavimo kalba. === In this Master Thesis has been researched three existing corpus systems. Lithuanian corpus search system, which is created by Lucene search engine. German corpus search system which uses Lithuanian Wikipedia texts as corpus. This system which is created by MySQL. British national corpus search system which is created by Xaira software. All these systems are analyzed and explained how indexing and searching components works. Also two popular repository systems were taken and researched deeply, it’s Fedora and DSpace. None of existing systems had morphological search option, that is why prototype system is created. All texts are stored in XML files which are marked by TEI P5 format. Prototype system allows perform a search by exact word and by main word form called lemma. Results are displayed by sentences. At first system displays sentences of exact word and sentences where same lemma as search word exists. Prototype system is created using MySQL database system also for programming PHP and XPath is used.