Preenchimento automático de formulários na web oculta

Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são ina...

Full description

Bibliographic Details
Main Author: Kantorski, Gustavo Zanini
Other Authors: Heuser, Carlos Alberto
Format: Others
Language:Portuguese
Published: 2014
Subjects:
Online Access:http://hdl.handle.net/10183/107988
id ndltd-IBICT-oai-www.lume.ufrgs.br-10183-107988
record_format oai_dc
spelling ndltd-IBICT-oai-www.lume.ufrgs.br-10183-1079882019-01-22T01:53:00Z Preenchimento automático de formulários na web oculta Automatically filling in hiddenweb forms Kantorski, Gustavo Zanini Heuser, Carlos Alberto Moreira, Viviane Pereira Recuperacao : Informacao Banco : Dados Serviços Web Crawling Deep web Filling web forms Hidden web Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são inacessíveis por máquinas de busca tradicionais. Uma vez que a forma de acessar os dados na Web Oculta se dá por intermédio de submissões de consultas, muitos trabalhos têm focado em como preencher automaticamente campos de formulários. Esta tese apresenta uma metodologia para o preenchimento de formulários na Web Oculta. Além disso, descreve uma categorização das técnicas de preenchimento de formulários existentes no estado da arte de coleta na Web Oculta, produzindo uma análise comparativa entre elas. A solução proposta descreve um método automático para seleção de valores para campos de formulários combinando heurísticas e técnicas de aprendizagem de máquina. Experimentos foram realizados em formulários reais da Web, de vários domínios, e os resultados indicam que a abordagem proposta apresenta desempenho comparável aos obtidos pelas técnicas do estado da arte, sendo inclusive significativamente diferente com base em avaliação estatística. A large portion of the information on the Web is stored inside online databases. Such information is accessible only after the users submit a query through a search interface. TheWeb portion in which that information is located is called HiddenWeb or DeepWeb, and generally this part is inaccessible by traditional search engines crawlers. Since the only way to access the Hidden Web pages is through the query submissions, many works have focused on how to fill in form fields automatically, aiming at enhancing the amount of distinct information hidden behind Web forms. This thesis presents an automatic solution to value selection for fields in Web forms. The solution combines heuristics and machine learning techniques for improving the selection of values. Furthermore, this proposal also describes a categorization of form filling techniques and a comparative analysis between works in the state of the art. Experiments were conducted on real Web sites and the results indicated that our approach significantly outperforms a baseline method in terms of coverage without additional computational cost. 2014-12-10T02:19:39Z 2014 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/10183/107988 000947618 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Recuperacao : Informacao
Banco : Dados
Serviços Web
Crawling
Deep web
Filling web forms
Hidden web
spellingShingle Recuperacao : Informacao
Banco : Dados
Serviços Web
Crawling
Deep web
Filling web forms
Hidden web
Kantorski, Gustavo Zanini
Preenchimento automático de formulários na web oculta
description Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são inacessíveis por máquinas de busca tradicionais. Uma vez que a forma de acessar os dados na Web Oculta se dá por intermédio de submissões de consultas, muitos trabalhos têm focado em como preencher automaticamente campos de formulários. Esta tese apresenta uma metodologia para o preenchimento de formulários na Web Oculta. Além disso, descreve uma categorização das técnicas de preenchimento de formulários existentes no estado da arte de coleta na Web Oculta, produzindo uma análise comparativa entre elas. A solução proposta descreve um método automático para seleção de valores para campos de formulários combinando heurísticas e técnicas de aprendizagem de máquina. Experimentos foram realizados em formulários reais da Web, de vários domínios, e os resultados indicam que a abordagem proposta apresenta desempenho comparável aos obtidos pelas técnicas do estado da arte, sendo inclusive significativamente diferente com base em avaliação estatística. === A large portion of the information on the Web is stored inside online databases. Such information is accessible only after the users submit a query through a search interface. TheWeb portion in which that information is located is called HiddenWeb or DeepWeb, and generally this part is inaccessible by traditional search engines crawlers. Since the only way to access the Hidden Web pages is through the query submissions, many works have focused on how to fill in form fields automatically, aiming at enhancing the amount of distinct information hidden behind Web forms. This thesis presents an automatic solution to value selection for fields in Web forms. The solution combines heuristics and machine learning techniques for improving the selection of values. Furthermore, this proposal also describes a categorization of form filling techniques and a comparative analysis between works in the state of the art. Experiments were conducted on real Web sites and the results indicated that our approach significantly outperforms a baseline method in terms of coverage without additional computational cost.
author2 Heuser, Carlos Alberto
author_facet Heuser, Carlos Alberto
Kantorski, Gustavo Zanini
author Kantorski, Gustavo Zanini
author_sort Kantorski, Gustavo Zanini
title Preenchimento automático de formulários na web oculta
title_short Preenchimento automático de formulários na web oculta
title_full Preenchimento automático de formulários na web oculta
title_fullStr Preenchimento automático de formulários na web oculta
title_full_unstemmed Preenchimento automático de formulários na web oculta
title_sort preenchimento automático de formulários na web oculta
publishDate 2014
url http://hdl.handle.net/10183/107988
work_keys_str_mv AT kantorskigustavozanini preenchimentoautomaticodeformulariosnaweboculta
AT kantorskigustavozanini automaticallyfillinginhiddenwebforms
_version_ 1718943104650706944