Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti
Tobulėjant šiuolaikinėms informacinėms ir komunikacinėms technologijoms, sparčiai didėja apdorojamų ir saugomų duomenų kiekiai, todėl duomenų analizės uždavinys tampa vis sudėtingesnis, sunku daryti greitus, efektyvius ir teisingus sprendimus. Duomenų analizei dažnai pasitelkiama duomenų tyryba. Du...
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
Vilnius University Press
2013-01-01
|
Series: | Informacijos Mokslai |
Online Access: | http://www.journals.vu.lt/informacijos-mokslai/article/view/2052 |
id |
doaj-5f5442c4f6f04229a1e4f35cb3c0cf18 |
---|---|
record_format |
Article |
spelling |
doaj-5f5442c4f6f04229a1e4f35cb3c0cf182020-11-25T03:49:59ZengVilnius University PressInformacijos Mokslai1392-05611392-14872013-01-016510.15388/Im.2013.0.2052Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuotiKotryna PaulauskienėOlga Kurasova Tobulėjant šiuolaikinėms informacinėms ir komunikacinėms technologijoms, sparčiai didėja apdorojamų ir saugomų duomenų kiekiai, todėl duomenų analizės uždavinys tampa vis sudėtingesnis, sunku daryti greitus, efektyvius ir teisingus sprendimus. Duomenų analizei dažnai pasitelkiama duomenų tyryba. Duomenų tyryba – tai procesas, kurio metu iš duomenų išgaunamos naudingos žinios. Duomenims apdoroti bei žinioms išgauti reikalingos duomenų tyrybos sistemos, leidžiančios apdoroti įvairios apimties duomenis. Tyrime siekiama nustatyti, kokios apimties duomenis per priimtiną laiką sugeba apdoroti populiariausios duomenų tyrybos sistemos. Nagrinėjamas ir lyginamas trijose atvirojo kodo duomenų tyrybos sistemose (WEKA, KNIME, ORANGE) įgyvendintų klasifi kavimo ir klasterizavimo algoritmų skaičiavimo laikas, analizuojant skirtingos apimties duomenų aibes. Vertinant sistemas svarbus ne tik algoritmų skaičiavimo laikas, bet ir klasifi kavimo bei klasterizavimo tikslumas, kurį pavyksta pasiekti per tą laiką, todėl straipsnyje pateikiamos ir eksperimentiniuose tyrimuose gauto tikslumo matų reikšmės. Investigation of the abilities of data mining systems to analyse various volume datasets Kotryna Paulauskienė, Olga Kurasova Summary The aim of the paper is to determine what volume of data the popular data mining systems are able to analyse within a reasonable period of time, when solving classifi cation and clustering problems. Three open source data mining systems are investigated: WEKA, KNIME, and ORANGE. The experiments have been carried out with eight datasets, where the number of attributes was fi xed – 100 and the number of instances ranged between 5000 and 600 000. The experimental investigation has shown that when the ORANGE system is used, the data of more than 50 000 instances are of too large volume. In order to analyse larger datasets, the WEKA and KNIME systems need to be used. The data of more than 200 000 instances are of too large volume for WEKA and KNIME, however, when simple classifi cation methods are used, both systems are able to handle 400 000 instances, and KNIME – 600 000 instances. The results have showed that KNIME can handle larger datasets than WEKA, when applying some classifi cation methods. The accuracy of classifi cation is high enough, when the classifi cation methods, implemented in the systems, are used. %; font-family: Calibri, sans-serif;"> http://www.journals.vu.lt/informacijos-mokslai/article/view/2052 |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Kotryna Paulauskienė Olga Kurasova |
spellingShingle |
Kotryna Paulauskienė Olga Kurasova Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti Informacijos Mokslai |
author_facet |
Kotryna Paulauskienė Olga Kurasova |
author_sort |
Kotryna Paulauskienė |
title |
Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti |
title_short |
Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti |
title_full |
Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti |
title_fullStr |
Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti |
title_full_unstemmed |
Duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti |
title_sort |
duomenų tyrybos sistemų galimybių tyrimas įvairių apimčių duomenims analizuoti |
publisher |
Vilnius University Press |
series |
Informacijos Mokslai |
issn |
1392-0561 1392-1487 |
publishDate |
2013-01-01 |
description |
Tobulėjant šiuolaikinėms informacinėms ir komunikacinėms technologijoms, sparčiai didėja apdorojamų ir saugomų duomenų kiekiai, todėl duomenų analizės uždavinys tampa vis sudėtingesnis, sunku daryti greitus, efektyvius ir teisingus sprendimus. Duomenų analizei dažnai pasitelkiama duomenų tyryba. Duomenų tyryba – tai procesas, kurio metu iš duomenų išgaunamos naudingos žinios. Duomenims apdoroti bei žinioms išgauti reikalingos duomenų tyrybos sistemos, leidžiančios apdoroti įvairios apimties duomenis. Tyrime siekiama nustatyti, kokios apimties duomenis per priimtiną laiką sugeba apdoroti populiariausios duomenų tyrybos sistemos. Nagrinėjamas ir lyginamas trijose atvirojo kodo duomenų tyrybos sistemose (WEKA, KNIME, ORANGE) įgyvendintų klasifi kavimo ir klasterizavimo algoritmų skaičiavimo laikas, analizuojant skirtingos apimties duomenų aibes. Vertinant sistemas svarbus ne tik algoritmų skaičiavimo laikas, bet ir klasifi kavimo bei klasterizavimo tikslumas, kurį pavyksta pasiekti per tą laiką, todėl straipsnyje pateikiamos ir eksperimentiniuose tyrimuose gauto tikslumo matų reikšmės.
Investigation of the abilities of data mining systems to analyse various volume datasets
Kotryna Paulauskienė, Olga Kurasova
Summary
The aim of the paper is to determine what volume of data the popular data mining systems are able to analyse within a reasonable period of time, when solving classifi cation and clustering problems. Three open source data mining systems are investigated: WEKA, KNIME, and ORANGE. The experiments have been carried out with eight datasets, where the number of attributes was fi xed – 100 and the number of instances ranged between 5000 and 600 000. The experimental investigation has shown that when the ORANGE system is used, the data of more than 50 000 instances are of too large volume. In order to analyse larger datasets, the WEKA and KNIME systems need to be used. The data of more than 200 000 instances are of too large volume for WEKA and KNIME, however, when simple classifi cation methods are used, both systems are able to handle 400 000 instances, and KNIME – 600 000 instances. The results have showed that KNIME can handle larger datasets than WEKA, when applying some classifi cation methods. The accuracy of classifi cation is high enough, when the classifi cation methods, implemented in the systems, are used.
%; font-family: Calibri, sans-serif;">
|
url |
http://www.journals.vu.lt/informacijos-mokslai/article/view/2052 |
work_keys_str_mv |
AT kotrynapaulauskiene duomenutyrybossistemugalimybiutyrimasivairiuapimciuduomenimsanalizuoti AT olgakurasova duomenutyrybossistemugalimybiutyrimasivairiuapimciuduomenimsanalizuoti |
_version_ |
1724492735950356480 |