SAAL - um sistema para Armazenammento e Análise de Links da Web
Made available in DSpace on 2014-06-12T15:59:07Z (GMT). No. of bitstreams: 2 arquivo4842_1.pdf: 796872 bytes, checksum: f32f019baff437f9e947861f8bfdf618 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2003 === O aumento do número de documento...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
Universidade Federal de Pernambuco
2014
|
Subjects: | |
Online Access: | https://repositorio.ufpe.br/handle/123456789/2539 |
id |
ndltd-IBICT-oai-repositorio.ufpe.br-123456789-2539 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
Análise de Links da Web Recuperação da informação |
spellingShingle |
Análise de Links da Web Recuperação da informação Coelho, Roberta de Souza SAAL - um sistema para Armazenammento e Análise de Links da Web |
description |
Made available in DSpace on 2014-06-12T15:59:07Z (GMT). No. of bitstreams: 2
arquivo4842_1.pdf: 796872 bytes, checksum: f32f019baff437f9e947861f8bfdf618 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2003 === O aumento do número de documentos disponíveis na World Wide Web (WWW)
traz uma série de novos desafios para a área de Recuperação de Informação (RI). As
páginas Web divergem em conteúdo e qualidade além de possuírem uma alta dinâmica.
Em adição a estes desafios os engenho de busca estão constantemente lidando com
usuários inexperientes e com páginas Web construídas com o intuito de manipular as
funções de ranking dos engenhos de busca.
Estudos recentes têm mostrado que a performance dos engenhos de busca está
longe da ideal. Apesar das evoluções tecnológicas, conseguidas até o momento,
permitirem a coleta e o armazenamento de um número cada vez maior de páginas nas
bases de índices dos engenhos de busca, a maioria destes sistemas enfrenta vários
problemas no momento de classificar as páginas de acordo com a necessidade do
usuário, em outras palavras, retornar para o usuário a informação que ele necessita.
A maioria dos engenhos de busca analisa as páginas Web como um documento
texto simples, não levando em consideração a estrutura na qual a página Web está
inserida. Diferentemente das coleções de documentos flat , a WWW corresponde a
uma coleção de documentos hipertexto que possuem informações auxiliares que vão
além do conteúdo textual, tais como a estrutura dos hiperlinks e o texto dos hiperlinks.
Estas informações são chamadas de informações hiper , que em conjunto com as
informações texto compõem o conjunto de informações que caracteriza uma página
Web.
A inadequação de estratégias singulares no processo de recuperação de
informações no ambiente Web constitui-se em um forte argumento para mostrar que as
técnicas recuperação de informação tradicionais não são suficientes no momento de
encontrar informações relevantes na Web.
Este trabalho propõe a utilização da estrutura de links da Web com o objetivo de
produzir um peso de importância global para cada página Web indexada por um
engenho de busca. Este peso, chamado peso de autoridade , é integrado aos engenhos
de busca, mais especificamente a função de ranking dos engenhos de busca que passa a
utilizar estes pesos juntamente com pesos de similaridade textual, com o objetivo de
melhorar a eficácia de recuperação do sistemaPara calcular o peso de autoridade para cada página Web foi elaborado um
algoritmo de análise de links, o Global Hybrid Hyperlinked Inducted Topic Search
(GHHITS) que foi concebido a partir do estudo dos algoritmos de análise de links préexistentes.
Para validar o algoritmo em questão foi implementado o SAAL - Sistema para
Armazenamento e Análise de Links - que propõe uma maneira eficiente de armazenar a
estrutura de links da Web, e executar o algoritmo proposto sobre esta estrutura.
Por fim, são apresentados os resultados obtidos durante os testes que avaliaram a
eficácia de recuperação de estratégias de busca que utilizaram o peso de autoridade como
componente da função de ranking.
Neste trabalho é mostrado, portanto, como as informações estruturais podem ser
utilizadas de forma a melhorar a qualidade da resposta retornada por um engenho de
busca |
author2 |
Meira, Silvio Romero de Lemos |
author_facet |
Meira, Silvio Romero de Lemos Coelho, Roberta de Souza |
author |
Coelho, Roberta de Souza |
author_sort |
Coelho, Roberta de Souza |
title |
SAAL - um sistema para Armazenammento e Análise de Links da Web |
title_short |
SAAL - um sistema para Armazenammento e Análise de Links da Web |
title_full |
SAAL - um sistema para Armazenammento e Análise de Links da Web |
title_fullStr |
SAAL - um sistema para Armazenammento e Análise de Links da Web |
title_full_unstemmed |
SAAL - um sistema para Armazenammento e Análise de Links da Web |
title_sort |
saal - um sistema para armazenammento e análise de links da web |
publisher |
Universidade Federal de Pernambuco |
publishDate |
2014 |
url |
https://repositorio.ufpe.br/handle/123456789/2539 |
work_keys_str_mv |
AT coelhorobertadesouza saalumsistemaparaarmazenammentoeanalisedelinksdaweb |
_version_ |
1718859763711737856 |
spelling |
ndltd-IBICT-oai-repositorio.ufpe.br-123456789-25392019-01-21T19:03:57Z SAAL - um sistema para Armazenammento e Análise de Links da Web Coelho, Roberta de Souza Meira, Silvio Romero de Lemos Análise de Links da Web Recuperação da informação Made available in DSpace on 2014-06-12T15:59:07Z (GMT). No. of bitstreams: 2 arquivo4842_1.pdf: 796872 bytes, checksum: f32f019baff437f9e947861f8bfdf618 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2003 O aumento do número de documentos disponíveis na World Wide Web (WWW) traz uma série de novos desafios para a área de Recuperação de Informação (RI). As páginas Web divergem em conteúdo e qualidade além de possuírem uma alta dinâmica. Em adição a estes desafios os engenho de busca estão constantemente lidando com usuários inexperientes e com páginas Web construídas com o intuito de manipular as funções de ranking dos engenhos de busca. Estudos recentes têm mostrado que a performance dos engenhos de busca está longe da ideal. Apesar das evoluções tecnológicas, conseguidas até o momento, permitirem a coleta e o armazenamento de um número cada vez maior de páginas nas bases de índices dos engenhos de busca, a maioria destes sistemas enfrenta vários problemas no momento de classificar as páginas de acordo com a necessidade do usuário, em outras palavras, retornar para o usuário a informação que ele necessita. A maioria dos engenhos de busca analisa as páginas Web como um documento texto simples, não levando em consideração a estrutura na qual a página Web está inserida. Diferentemente das coleções de documentos flat , a WWW corresponde a uma coleção de documentos hipertexto que possuem informações auxiliares que vão além do conteúdo textual, tais como a estrutura dos hiperlinks e o texto dos hiperlinks. Estas informações são chamadas de informações hiper , que em conjunto com as informações texto compõem o conjunto de informações que caracteriza uma página Web. A inadequação de estratégias singulares no processo de recuperação de informações no ambiente Web constitui-se em um forte argumento para mostrar que as técnicas recuperação de informação tradicionais não são suficientes no momento de encontrar informações relevantes na Web. Este trabalho propõe a utilização da estrutura de links da Web com o objetivo de produzir um peso de importância global para cada página Web indexada por um engenho de busca. Este peso, chamado peso de autoridade , é integrado aos engenhos de busca, mais especificamente a função de ranking dos engenhos de busca que passa a utilizar estes pesos juntamente com pesos de similaridade textual, com o objetivo de melhorar a eficácia de recuperação do sistemaPara calcular o peso de autoridade para cada página Web foi elaborado um algoritmo de análise de links, o Global Hybrid Hyperlinked Inducted Topic Search (GHHITS) que foi concebido a partir do estudo dos algoritmos de análise de links préexistentes. Para validar o algoritmo em questão foi implementado o SAAL - Sistema para Armazenamento e Análise de Links - que propõe uma maneira eficiente de armazenar a estrutura de links da Web, e executar o algoritmo proposto sobre esta estrutura. Por fim, são apresentados os resultados obtidos durante os testes que avaliaram a eficácia de recuperação de estratégias de busca que utilizaram o peso de autoridade como componente da função de ranking. Neste trabalho é mostrado, portanto, como as informações estruturais podem ser utilizadas de forma a melhorar a qualidade da resposta retornada por um engenho de busca 2014-06-12T15:59:07Z 2014-06-12T15:59:07Z 2003 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis de Souza Coelho, Roberta; Romero de Lemos Meira, Silvio. SAAL - um sistema para Armazenammento e Análise de Links da Web. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003. https://repositorio.ufpe.br/handle/123456789/2539 por info:eu-repo/semantics/openAccess Universidade Federal de Pernambuco reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco instacron:UFPE |