Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti
World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching info...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Vilnius Gediminas Technical University
2012-04-01
|
Series: | Mokslas: Lietuvos Ateitis |
Subjects: | |
Online Access: | http://journals.vgtu.lt/index.php/MLA/article/view/4484 |
id |
doaj-c42365d1764440bdb32152144a34d7e0 |
---|---|
record_format |
Article |
spelling |
doaj-c42365d1764440bdb32152144a34d7e02021-05-02T05:35:31ZengVilnius Gediminas Technical UniversityMokslas: Lietuvos Ateitis2029-23412029-22522012-04-014110.3846/mla.2012.07375Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinktiTomas Grigalis0Leonardas Marozas1Lukas Radvilavičius2Vilniaus Gedimino technikos universitetasVilniaus Gedimino technikos universitetasVilniaus Gedimino technikos universitetas World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching information in modern WEB 2.0 web pages, where HTML tree is often dynamically modified by various JavaScript codes, new data are added by asynchronous requests to the web server and elements are positioned with the help of cascading style sheets, is a difficult task. The article reviews automated web testing tools for information extraction tasks. Santrauka Internetui tapus milžiniška informacijos duomenų baze, susiduriama su informacijos rinkimo problema – kaip iš itin gausaus kiekio informacijos šaltinių pasirinkti tokį, kuris gebėtų informacijos naudotojui pateikti tinkamą ir jį dominančią aktualią informaciją. Taip pat svarbu gebėti analizuoti šiuolaikinius tinklalapius saugumo prasme ir ieškoti juose, pavyzdžiui, įterpto slapto kenkėjiško kodo, o tai galima padaryti tik surinkus informaciją iš tinklalapio. Be to, nauja WEB 2.0 interneto karta priverčia keisti įprastinius informacijos rinkimo metodus, nes Flash, Javascript, Ajax ir kitos naujos technologijos trukdo surinkti informaciją vien tik analizuojant įprastą HTML kodą. Šiame straipsnyje analizuojamos sudėtingų šiuolaikinių tinklalapių naršymo automatizavimui ir testavimui skirtos priemonės, kurios gali būti panaudotos informacijai rinkti. Reikšminiai žodžiai: informacijos rinkimas, dinamiški tinklalapiai, automatinis naršymas, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill. http://journals.vgtu.lt/index.php/MLA/article/view/4484data extractionautomated crawlingweb testingdynamic webpagesQuick Test ProSahi |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Tomas Grigalis Leonardas Marozas Lukas Radvilavičius |
spellingShingle |
Tomas Grigalis Leonardas Marozas Lukas Radvilavičius Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti Mokslas: Lietuvos Ateitis data extraction automated crawling web testing dynamic webpages Quick Test Pro Sahi |
author_facet |
Tomas Grigalis Leonardas Marozas Lukas Radvilavičius |
author_sort |
Tomas Grigalis |
title |
Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti |
title_short |
Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti |
title_full |
Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti |
title_fullStr |
Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti |
title_full_unstemmed |
Analysis of automated modern web crawling and testing tools and their possible employment for information extraction / Šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti |
title_sort |
analysis of automated modern web crawling and testing tools and their possible employment for information extraction / šiuolaikinių tinklalapių automatizuotam naršymui ir testavimui skirtų priemonių analizė ir pritaikomumas informacijai rinkti |
publisher |
Vilnius Gediminas Technical University |
series |
Mokslas: Lietuvos Ateitis |
issn |
2029-2341 2029-2252 |
publishDate |
2012-04-01 |
description |
World Wide Web has become an enormously big repository of data. Extracting, integrating and reusing this kind of data has a wide range of applications, including meta-searching, comparison shopping, business intelligence tools and security analysis of information in websites. However, reaching information in modern WEB 2.0 web pages, where HTML tree is often dynamically modified by various JavaScript codes, new data are added by asynchronous requests to the web server and elements are positioned with the help of cascading style sheets, is a difficult task. The article reviews automated web testing tools for information extraction tasks.
Santrauka
Internetui tapus milžiniška informacijos duomenų baze, susiduriama su informacijos rinkimo problema – kaip iš itin gausaus kiekio informacijos šaltinių pasirinkti tokį, kuris gebėtų informacijos naudotojui pateikti tinkamą ir jį dominančią aktualią informaciją. Taip pat svarbu gebėti analizuoti šiuolaikinius tinklalapius saugumo prasme ir ieškoti juose, pavyzdžiui, įterpto slapto kenkėjiško kodo, o tai galima padaryti tik surinkus informaciją iš tinklalapio. Be to, nauja WEB 2.0 interneto karta priverčia keisti įprastinius informacijos rinkimo metodus, nes Flash, Javascript, Ajax ir kitos naujos technologijos trukdo surinkti informaciją vien tik analizuojant įprastą HTML kodą. Šiame straipsnyje analizuojamos sudėtingų šiuolaikinių tinklalapių naršymo automatizavimui ir testavimui skirtos priemonės, kurios gali būti panaudotos informacijai rinkti.
Reikšminiai žodžiai: informacijos rinkimas, dinamiški tinklalapiai, automatinis naršymas, Quick Test Pro, Sahi, Selenium, Telerik, TestComplete, Watir, Windmill.
|
topic |
data extraction automated crawling web testing dynamic webpages Quick Test Pro Sahi |
url |
http://journals.vgtu.lt/index.php/MLA/article/view/4484 |
work_keys_str_mv |
AT tomasgrigalis analysisofautomatedmodernwebcrawlingandtestingtoolsandtheirpossibleemploymentforinformationextractionsiuolaikiniutinklalapiuautomatizuotamnarsymuiirtestavimuiskirtupriemoniuanalizeirpritaikomumasinformacijairinkti AT leonardasmarozas analysisofautomatedmodernwebcrawlingandtestingtoolsandtheirpossibleemploymentforinformationextractionsiuolaikiniutinklalapiuautomatizuotamnarsymuiirtestavimuiskirtupriemoniuanalizeirpritaikomumasinformacijairinkti AT lukasradvilavicius analysisofautomatedmodernwebcrawlingandtestingtoolsandtheirpossibleemploymentforinformationextractionsiuolaikiniutinklalapiuautomatizuotamnarsymuiirtestavimuiskirtupriemoniuanalizeirpritaikomumasinformacijairinkti |
_version_ |
1721495020644597760 |