Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

Um dos problemas da extração de dados na web é a remoção de ruído existente nas páginas. Esta tarefa busca identificar todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruído pode prejudicar seriamente o desempenho de motores de...

Full description

Bibliographic Details
Main Author: Lutz, João Adolfo Froede
Other Authors: Heuser, Carlos Alberto
Format: Others
Language:Portuguese
Published: 2014
Subjects:
Online Access:http://hdl.handle.net/10183/94625