Summary: | Šiame darbe yra pateikiama informacija apie esamų darbų apžvalgą, kuriuose yra minimas panašios bei pasikartojančios informacijos ieškojimas, taip pat aprašoma darbų analizė, kuriuose yra minimas informacijos nuskaitymas iš internetinio portalo bei jos išsaugojimas. Dabartinėje rinkoje egzistuojančių programinių paketų bei karkasų apžvalga, kurių pagalba galima nuskaityti informacija iš internetinio puslapio paverčiant DOM objektais. Po darbų bei sistemų analizės sukurta sistema, kuri sugeba nuskaityti iš „Delfi.lt“ portalo turimo archyvo straipsnius bei komentarus. Pasinaudojant sukurtu programiniu kodu sukurta žinių bazė, kurią sudaro straipsniai ir straipsniams priklausantys komentarai. Žinių bazėje yra sukaupta 10 metų „Delfi.lt“ straipsniai. Atlikus panašiu darbų apžvalgą susijusią su pasikartojančios informacijos paieška įgyvendintas algoritmas, kurį naudojant galima nurodytoje žinių bazėje surasti skirtingus žodžius, suskaičiuoti žodžių reikšmingumą žinių bazę sudarantiems tekstams, bei paskaičiuoti skirtingų dokumentų panašumą. Naudojantis sukurtu programiniu kodu atlikta panašios informacijos paieška bei priimtas sprendimas ar pavyko rasti atsikartojančios informacijos ar ne. === This work describes the overview of the existing works whose has been carried out in the information extraction from the web site and the received information saving. Also describes overview of existing works where are mentioned duplicated information search. In current time ware overviewed existing software packages and frameworks, whose can help retrieve information from web pages and convert all HTML elements to DOM objects. After other existing works overview and systems analysis was created a system which is able to scan „Delfi.lt" portal archive for articles and comments. Using developed program code was created 10 years knowledge base, where are included all articles and articles comments. Also was adapted program code which can find all different words, words counts per documents and documents similarity from created knowledge base, and from results was decided are possible to found duplicated information or not.
|