Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti

World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching info...

Full description

Bibliographic Details
Main Authors: Tomas Grigalis, Leonardas Marozas, Lukas Radvilavičius
Format: Article
Language:English
Published: Vilnius Gediminas Technical University 2012-04-01
Series:Mokslas: Lietuvos Ateitis
Subjects:
Online Access:http://journals.vgtu.lt/index.php/MLA/article/view/4484
id doaj-c42365d1764440bdb32152144a34d7e0
record_format Article
spelling doaj-c42365d1764440bdb32152144a34d7e02021-05-02T05:35:31ZengVilnius Gediminas Technical UniversityMokslas: Lietuvos Ateitis2029-23412029-22522012-04-014110.3846/mla.2012.07375Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinktiTomas Grigalis0Leonardas Marozas1Lukas Radvilavičius2Vilniaus Gedimino technikos universitetasVilniaus Gedimino technikos universitetasVilniaus Gedimino technikos universitetas World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching information in modern WEB 2.0 web pages, where HTML tree is often dynamically modified by various JavaScript codes, new data are added by asynchronous requests to the web server and elements are positioned with the help of cascading style sheets, is a difficult task. The article reviews automated web testing tools for information extraction tasks. Santrauka Internetui tapus milžiniška informacijos duomenų baze, susiduriama su informacijos rinkimo problema – kaip iš itin gausaus kiekio informacijos šaltinių pasirinkti tokį, kuris gebėtų informacijos naudotojui pateikti tinkamą ir jį dominančią aktualią informaciją. Taip pat svarbu gebėti analizuoti šiuolaikinius tinklalapius saugumo prasme ir ieškoti juose, pavyzdžiui, įterpto slapto kenkėjiško kodo, o tai galima padaryti tik surinkus informaciją iš tinklalapio. Be to, nauja WEB 2.0 interneto karta priverčia keisti įprastinius informacijos rinkimo metodus, nes Flash, Javascript, Ajax ir kitos naujos technologijos trukdo surinkti informaciją vien tik analizuojant įprastą HTML kodą. Šiame straipsnyje analizuojamos sudėtingų šiuolaikinių tinklalapių naršymo automatizavimui ir testavimui skirtos priemonės, kurios gali būti panaudotos informacijai rinkti. Reikšminiai žodžiai: informacijos rinkimas, dinamiški tinklalapiai, automatinis naršymas, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill. http://journals.vgtu.lt/index.php/MLA/article/view/4484data extractionautomated crawlingweb testingdynamic webpagesQuick Test ProSahi
collection DOAJ
language English
format Article
sources DOAJ
author Tomas Grigalis
Leonardas Marozas
Lukas Radvilavičius
spellingShingle Tomas Grigalis
Leonardas Marozas
Lukas Radvilavičius
Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
Mokslas: Lietuvos Ateitis
data extraction
automated crawling
web testing
dynamic webpages
Quick Test Pro
Sahi
author_facet Tomas Grigalis
Leonardas Marozas
Lukas Radvilavičius
author_sort Tomas Grigalis
title Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
title_short Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
title_full Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
title_fullStr Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
title_full_unstemmed Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
title_sort analysis of automated modern web crawling and testing tools and their possible employment for information extraction / šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
publisher Vilnius Gediminas Technical University
series Mokslas: Lietuvos Ateitis
issn 2029-2341
2029-2252
publishDate 2012-04-01
description World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching information in modern WEB 2.0 web pages, where HTML tree is often dynamically modified by various JavaScript codes, new data are added by asynchronous requests to the web server and elements are positioned with the help of cascading style sheets, is a difficult task. The article reviews automated web testing tools for information extraction tasks. Santrauka Internetui tapus milžiniška informacijos duomenų baze, susiduriama su informacijos rinkimo problema – kaip iš itin gausaus kiekio informacijos šaltinių pasirinkti tokį, kuris gebėtų informacijos naudotojui pateikti tinkamą ir jį dominančią aktualią informaciją. Taip pat svarbu gebėti analizuoti šiuolaikinius tinklalapius saugumo prasme ir ieškoti juose, pavyzdžiui, įterpto slapto kenkėjiško kodo, o tai galima padaryti tik surinkus informaciją iš tinklalapio. Be to, nauja WEB 2.0 interneto karta priverčia keisti įprastinius informacijos rinkimo metodus, nes Flash, Javascript, Ajax ir kitos naujos technologijos trukdo surinkti informaciją vien tik analizuojant įprastą HTML kodą. Šiame straipsnyje analizuojamos sudėtingų šiuolaikinių tinklalapių naršymo automatizavimui ir testavimui skirtos priemonės, kurios gali būti panaudotos informacijai rinkti. Reikšminiai žodžiai: informacijos rinkimas, dinamiški tinklalapiai, automatinis naršymas, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill.
topic data extraction
automated crawling
web testing
dynamic webpages
Quick Test Pro
Sahi
url http://journals.vgtu.lt/index.php/MLA/article/view/4484
work_keys_str_mv AT tomasgrigalis analysisofautomatedmodernwebcrawlingandtestingtoolsandtheirpossibleemploymentforinformationextractionsiuolaikiniutinklalapiuautomatizuotamnarsymuiirtestavimuiskirtupriemoniuanalizeirpritaikomumasinformacijairinkti
AT leonardasmarozas analysisofautomatedmodernwebcrawlingandtestingtoolsandtheirpossibleemploymentforinformationextractionsiuolaikiniutinklalapiuautomatizuotamnarsymuiirtestavimuiskirtupriemoniuanalizeirpritaikomumasinformacijairinkti
AT lukasradvilavicius analysisofautomatedmodernwebcrawlingandtestingtoolsandtheirpossibleemploymentforinformationextractionsiuolaikiniutinklalapiuautomatizuotamnarsymuiirtestavimuiskirtupriemoniuanalizeirpritaikomumasinformacijairinkti
_version_ 1721495020644597760