Preenchimento automático de formulários na web oculta
Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são ina...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
2014
|
Subjects: | |
Online Access: | http://hdl.handle.net/10183/107988 |
id |
ndltd-IBICT-oai-www.lume.ufrgs.br-10183-107988 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-www.lume.ufrgs.br-10183-1079882019-01-22T01:53:00Z Preenchimento automático de formulários na web oculta Automatically filling in hiddenweb forms Kantorski, Gustavo Zanini Heuser, Carlos Alberto Moreira, Viviane Pereira Recuperacao : Informacao Banco : Dados Serviços Web Crawling Deep web Filling web forms Hidden web Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são inacessíveis por máquinas de busca tradicionais. Uma vez que a forma de acessar os dados na Web Oculta se dá por intermédio de submissões de consultas, muitos trabalhos têm focado em como preencher automaticamente campos de formulários. Esta tese apresenta uma metodologia para o preenchimento de formulários na Web Oculta. Além disso, descreve uma categorização das técnicas de preenchimento de formulários existentes no estado da arte de coleta na Web Oculta, produzindo uma análise comparativa entre elas. A solução proposta descreve um método automático para seleção de valores para campos de formulários combinando heurísticas e técnicas de aprendizagem de máquina. Experimentos foram realizados em formulários reais da Web, de vários domínios, e os resultados indicam que a abordagem proposta apresenta desempenho comparável aos obtidos pelas técnicas do estado da arte, sendo inclusive significativamente diferente com base em avaliação estatística. A large portion of the information on the Web is stored inside online databases. Such information is accessible only after the users submit a query through a search interface. TheWeb portion in which that information is located is called HiddenWeb or DeepWeb, and generally this part is inaccessible by traditional search engines crawlers. Since the only way to access the Hidden Web pages is through the query submissions, many works have focused on how to fill in form fields automatically, aiming at enhancing the amount of distinct information hidden behind Web forms. This thesis presents an automatic solution to value selection for fields in Web forms. The solution combines heuristics and machine learning techniques for improving the selection of values. Furthermore, this proposal also describes a categorization of form filling techniques and a comparative analysis between works in the state of the art. Experiments were conducted on real Web sites and the results indicated that our approach significantly outperforms a baseline method in terms of coverage without additional computational cost. 2014-12-10T02:19:39Z 2014 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/10183/107988 000947618 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Recuperacao : Informacao Banco : Dados Serviços Web Crawling Deep web Filling web forms Hidden web |
spellingShingle |
Recuperacao : Informacao Banco : Dados Serviços Web Crawling Deep web Filling web forms Hidden web Kantorski, Gustavo Zanini Preenchimento automático de formulários na web oculta |
description |
Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são inacessíveis por máquinas de busca tradicionais. Uma vez que a forma de acessar os dados na Web Oculta se dá por intermédio de submissões de consultas, muitos trabalhos têm focado em como preencher automaticamente campos de formulários. Esta tese apresenta uma metodologia para o preenchimento de formulários na Web Oculta. Além disso, descreve uma categorização das técnicas de preenchimento de formulários existentes no estado da arte de coleta na Web Oculta, produzindo uma análise comparativa entre elas. A solução proposta descreve um método automático para seleção de valores para campos de formulários combinando heurísticas e técnicas de aprendizagem de máquina. Experimentos foram realizados em formulários reais da Web, de vários domínios, e os resultados indicam que a abordagem proposta apresenta desempenho comparável aos obtidos pelas técnicas do estado da arte, sendo inclusive significativamente diferente com base em avaliação estatística. === A large portion of the information on the Web is stored inside online databases. Such information is accessible only after the users submit a query through a search interface. TheWeb portion in which that information is located is called HiddenWeb or DeepWeb, and generally this part is inaccessible by traditional search engines crawlers. Since the only way to access the Hidden Web pages is through the query submissions, many works have focused on how to fill in form fields automatically, aiming at enhancing the amount of distinct information hidden behind Web forms. This thesis presents an automatic solution to value selection for fields in Web forms. The solution combines heuristics and machine learning techniques for improving the selection of values. Furthermore, this proposal also describes a categorization of form filling techniques and a comparative analysis between works in the state of the art. Experiments were conducted on real Web sites and the results indicated that our approach significantly outperforms a baseline method in terms of coverage without additional computational cost. |
author2 |
Heuser, Carlos Alberto |
author_facet |
Heuser, Carlos Alberto Kantorski, Gustavo Zanini |
author |
Kantorski, Gustavo Zanini |
author_sort |
Kantorski, Gustavo Zanini |
title |
Preenchimento automático de formulários na web oculta |
title_short |
Preenchimento automático de formulários na web oculta |
title_full |
Preenchimento automático de formulários na web oculta |
title_fullStr |
Preenchimento automático de formulários na web oculta |
title_full_unstemmed |
Preenchimento automático de formulários na web oculta |
title_sort |
preenchimento automático de formulários na web oculta |
publishDate |
2014 |
url |
http://hdl.handle.net/10183/107988 |
work_keys_str_mv |
AT kantorskigustavozanini preenchimentoautomaticodeformulariosnaweboculta AT kantorskigustavozanini automaticallyfillinginhiddenwebforms |
_version_ |
1718943104650706944 |