Statistinis dažnų posekių paieškos algoritmas
Šiuolaikinis gyvenimas susijęs su dideliais informacijos bei duomenų kiekiais. Paieška yra viena iš pagrindinių kompiuterio darbo operacijų. Paieškos tikslas – rasti dideliame duomenų kiekyje tam tikrą elementą ar elementų seką arba patvirtinti, kad jos nėra. Pagrindinis duomenų gavybos tikslas – r...
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
Vilnius University Press
2011-01-01
|
Series: | Informacijos Mokslai |
Online Access: | http://www.journals.vu.lt/informacijos-mokslai/article/view/3118 |
id |
doaj-e3c10a1e6a90418f85aa2804fcc0693a |
---|---|
record_format |
Article |
spelling |
doaj-e3c10a1e6a90418f85aa2804fcc0693a2020-11-25T03:21:59ZengVilnius University PressInformacijos Mokslai1392-05611392-14872011-01-015810.15388/Im.2011.0.3118Statistinis dažnų posekių paieškos algoritmasLoreta SavulionienėLeonidas Sakalauskas Šiuolaikinis gyvenimas susijęs su dideliais informacijos bei duomenų kiekiais. Paieška yra viena iš pagrindinių kompiuterio darbo operacijų. Paieškos tikslas – rasti dideliame duomenų kiekyje tam tikrą elementą ar elementų seką arba patvirtinti, kad jos nėra. Pagrindinis duomenų gavybos tikslas – rasti duomenyse prasmę, t. y. ryšius tarp duomenų, jų pasikartojamumą ir pan. Straipsnyje pasiūlytas naujas statistinis dažnų posekių paieškos algoritmas, eksperimentų rezultatai bei išvados. Statistinio dažnų posekių paieškos algoritmo esmė – greitai nustatyti dažnus posekius. Šis algoritmas netikrina viso rinkmenos turinio keletą kartų. Vykdant algoritmą rinkmena peržiūrima vieną kartą pagal pasirinktą tikimybę p. Šis algoritmas yra netikslus, tačiau jo vykdymo laikas daug trumpesnis nei tiksliųjų algoritmų. Statistinis dažnų posekių paieškos algoritmas gali būti taikomas struktūrų paieškos uždaviniui, kai aktualu nustatyti, koks posekis yra dažniausias, tačiau nėra labai svarbu tikslus dažnų posekių skaičius. Pagrindiniai žodžiai: posekis, kandidatinė seka, duomenų rinkinys, dažnas elementas, elementų rinkinių generavimas, hash funkcija, pirmos rūšies klaida, antros rūšies klaida, pasikliautinumo intervalas. Statistical Algorithm for Mining Frequent Sequences Loreta Savulioniene, Leonidas Sakalauskas Summary Modern life involves large amounts of data and information. Search is one of the major operations performed by a computer. Search goal is to find a sequence (element) in large amounts of data or to confirm that it does not exist. Amounts of data in databases have reached terabytes, and therefore data retrieval, analysis, rapid decision-making become increasingly complicated. Large quantities of information cover both important and void information. The main goal of data mining is to find the meaning in data, i.e. a relationship between the data, their reproducibility, etc. This technology applies to business, medicine and other areas where large amounts of information are processed and a relationship among data is detected, i.e. new information is obtained from large amounts of data. The paper proposes a new statistic algorithm for repeated sequence search. The essence of this statistic algorithm is to identify repeated sequences quickly. During the algorithm all contents of the file are not checked several times. During the algorithm, the file is checked once according to the chosen probability p. This algorithm is inaccurate, but its execution time is shorter than of the accurate algorithms. http://www.journals.vu.lt/informacijos-mokslai/article/view/3118 |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Loreta Savulionienė Leonidas Sakalauskas |
spellingShingle |
Loreta Savulionienė Leonidas Sakalauskas Statistinis dažnų posekių paieškos algoritmas Informacijos Mokslai |
author_facet |
Loreta Savulionienė Leonidas Sakalauskas |
author_sort |
Loreta Savulionienė |
title |
Statistinis dažnų posekių paieškos algoritmas |
title_short |
Statistinis dažnų posekių paieškos algoritmas |
title_full |
Statistinis dažnų posekių paieškos algoritmas |
title_fullStr |
Statistinis dažnų posekių paieškos algoritmas |
title_full_unstemmed |
Statistinis dažnų posekių paieškos algoritmas |
title_sort |
statistinis dažnų posekių paieškos algoritmas |
publisher |
Vilnius University Press |
series |
Informacijos Mokslai |
issn |
1392-0561 1392-1487 |
publishDate |
2011-01-01 |
description |
Šiuolaikinis gyvenimas susijęs su dideliais informacijos bei duomenų kiekiais. Paieška yra viena iš pagrindinių kompiuterio darbo operacijų. Paieškos tikslas – rasti dideliame duomenų kiekyje tam tikrą elementą ar elementų seką arba patvirtinti, kad jos nėra. Pagrindinis duomenų gavybos tikslas – rasti duomenyse prasmę, t. y. ryšius tarp duomenų, jų pasikartojamumą ir pan. Straipsnyje pasiūlytas naujas statistinis dažnų posekių paieškos algoritmas, eksperimentų rezultatai bei išvados. Statistinio dažnų posekių paieškos algoritmo esmė – greitai nustatyti dažnus posekius. Šis algoritmas netikrina viso rinkmenos turinio keletą kartų. Vykdant algoritmą rinkmena peržiūrima vieną kartą pagal pasirinktą tikimybę p. Šis algoritmas yra netikslus, tačiau jo vykdymo laikas daug trumpesnis nei tiksliųjų algoritmų. Statistinis dažnų posekių paieškos algoritmas gali būti taikomas struktūrų paieškos uždaviniui, kai aktualu nustatyti, koks posekis yra dažniausias, tačiau nėra labai svarbu tikslus dažnų posekių skaičius.
Pagrindiniai žodžiai: posekis, kandidatinė seka, duomenų rinkinys, dažnas elementas, elementų rinkinių generavimas, hash funkcija, pirmos rūšies klaida, antros rūšies klaida, pasikliautinumo intervalas.
Statistical Algorithm for Mining Frequent Sequences
Loreta Savulioniene, Leonidas Sakalauskas
Summary
Modern life involves large amounts of data and information. Search is one of the major operations performed by a computer. Search goal is to find a sequence (element) in large amounts of data or to confirm that it does not exist. Amounts of data in databases have reached terabytes, and therefore data retrieval, analysis, rapid decision-making become increasingly complicated. Large quantities of information cover both important and void information. The main goal of data mining is to find the meaning in data, i.e. a relationship between the data, their reproducibility, etc. This technology applies to business, medicine and other areas where large amounts of information are processed and a relationship among data is detected, i.e. new information is obtained from large amounts of data. The paper proposes a new statistic algorithm for repeated sequence search. The essence of this statistic algorithm is to identify repeated sequences quickly. During the algorithm all contents of the file are not checked several times. During the algorithm, the file is checked once according to the chosen probability p. This algorithm is inaccurate, but its execution time is shorter than of the accurate algorithms.
|
url |
http://www.journals.vu.lt/informacijos-mokslai/article/view/3118 |
work_keys_str_mv |
AT loretasavulioniene statistinisdaznuposekiupaieskosalgoritmas AT leonidassakalauskas statistinisdaznuposekiupaieskosalgoritmas |
_version_ |
1724611932454912000 |