Uso de informação estrutural para melhorar qualidade de busca em coleções web

=== Unlike plain text documents, Web pages are commonly composed of distinct segments or blocks such as service channels, decoration skins, navigation bars, main sections, copyright and privacy announcements. This is of interest because previous works have demonstrated that these different segments...

Full description

Bibliographic Details
Main Author: David Braga Fernandes de Oliveira
Other Authors: Berthier Ribeiro de Araujo Neto
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2010
Online Access:http://hdl.handle.net/1843/SLSS-85RKDG
Description
Summary:=== Unlike plain text documents, Web pages are commonly composed of distinct segments or blocks such as service channels, decoration skins, navigation bars, main sections, copyright and privacy announcements. This is of interest because previous works have demonstrated that these different segments or blocks, which can be automatically iden- tified in Web pages, can be used to improve information retrieval tasks such as search- ing, Web link analysis and Web mining. For instance, block information can be used to estimate term weights according to the occurrence of the terms inside blocks (instead of inside pages). As a consequence, the importance of each term occurrence may vary depending on its location (or block) within the Web page. The motivation is that, for instance, the occurrence of a term in the main contents section of a Web page is expected to be more important for ranking purposes than an occurrence of that same term in a menu of that page. In this thesis, we investigate how to improve retrieval tasks by exploring the block structure of Web pages. For that, we propose: (i) a new model for representing the content of Web sites in information retrieval systems that takes into account the internal structure of their Web pages and the relationship of the structural components found on the pages; (ii) a method to automatically identify the internal structure of the Web pages, according to the model of representing the Web sites contents proposed in this work; and (iii) a set of 9 block-weight functions to distinguish the impact of term occurrences inside page blocks, instead of inside whole pages. These functions, that are used to compile a modified BM25 ranking function, have the advantage of not requiring a learning process nor any type of manual intervention to compute the ranking, as required by previous works. Using 4 distinct Web collections, we ran extensive experiments to compare our block-weight ranking formulas with 3 other baselines: (i) a BM25 ranking applied to full pages, (ii) a BM25 ranking applied to pages after templates removal, and (iii) a BM25 ranking that takes into account best blocks. Our methods suggest that our block-weighting ranking method is superior to all baselines across all collections we used and that average gain in precision figures from 5% to 20% are generated. Further, our methods decrease the cost of processing queries when compared to the systems using no structural information, decreasing indexing storage requirements and increasing the speed of query processing. === Ao contrário dos documentos de textos planos, as páginas Web são comumente com- postas de diferentes segmentos ou blocos tais como barras de navegação, formulários de interação, seções principais, anúncios de privacidade e copyright. Este é um fato de interesse, visto que trabalhos anteriores demonstraram que esses diferentes segmen- tos, que podem ser identificados automaticamente nas páginas Web, podem ser usados para melhorar atividades de recuperação de informação tais como busca, análise de Web links, e mineração de dados na Web. Por exemplo, informação sobre os blocos das páginas pode ser usada para estimar pesos de termos de acordo com a ocorrência desses termos dentro dos blocos (ao invés de dentro das páginas). Como consequência, a importância da ocorrência de um termo em uma página Web pode variar dependendo de sua localização (ou bloco) dentro das páginasWeb. Por exemplo, a ocorrência de um termo no conteúdo principal de uma página pode ser mais importante para tarefas de ordenação de documentos que a ocorrência deste mesmo termo no menu desta página.Nesta tese, são investigados diferentes meios de como melhorar processos de busca por informação em coleções de páginas Web através do uso da estrutura das páginas. Para tanto, nós propomos: (i) um novo modelo de representação do conteúdo de Web sites em sistema de recuperação de informação que leva em consideração a estrutura interna das páginas; (ii) um método de identificação automática da estrutura interna das páginas Web, de acordo com o modelo de representação do conteúdo de Web sites proposto neste trabalho; e (iii) um conjunto de nove funções capazes de distinguir o impacto de ocorrências de termos dentro dos blocos das páginas, on invés de dentro das páginas completas. Estas funções, que são usadas para compilar uma versão modificada do modelo BM25, possuem a vantagem de não requerer processos de aprendizagem nem qualquer outro tipo de intervenção manual para computar as ordenações de respostas para as consultas, tal como requerido por trabalhos anteriores.Usando quatro coleções de páginas Web, foram executados experimentos para comparar nossos métodos baseados em blocos com (i) dois modelos de recuperação de informação baseados em blocos propostos na literatura, e com (ii) um método tradicional de ranking que não usa informação de blocos. Os resultados indicam que nossos métodos baseados em blocos são capazes de obter ganhos de qualidade de resposta em relação a todos os baselines, gerando ganhos médios de precisão de 5% a 20%. Além de melhorar a efetividade da tarefa de busca, nossos métodos baseados em blocos reduzem o tamanho do índice usado nos processos de busca em até 27.9% quando comparado com os baselines, diminuindo os requisitos de armazenagem do sistema e o custo de processamento das consultas.