Poda estática para índices invertidos baseada em logs

=== O crescimento inexorável do volume de documentos na World Wide Web coloca um grande desafio para as máquinas de busca, não apenas com relação a eficácia as também com relação a eficiência de espaço e de tempo. Esta dissertação apresenta um novo método de compressão com perda (poda) para arquivo...

Full description

Bibliographic Details
Main Author:	Charles Ornelas Almeida
Other Authors:	Nivio Ziviani
Format:	Others
Language:	Portuguese
Published:	Universidade Federal de Minas Gerais 2005
Online Access:	http://hdl.handle.net/1843/RVMR-6EAG2L

id	ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-RVMR-6EAG2L
record_format	oai_dc
spelling	ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-RVMR-6EAG2L2019-01-21T17:51:48Z Poda estática para índices invertidos baseada em logs Charles Ornelas Almeida Nivio Ziviani Edleno Silva de Moura Edleno Silva de Moura Berthier Ribeiro de Araujo Neto Renato Antonio Celso Ferreira O crescimento inexorável do volume de documentos na World Wide Web coloca um grande desafio para as máquinas de busca, não apenas com relação a eficácia as também com relação a eficiência de espaço e de tempo. Esta dissertação apresenta um novo método de compressão com perda (poda) para arquivos invertidos que considera o aspecto eficiência sem desconsiderar a eficácia. O método proposto é baseado na análise de 'logs' de consultas passadas para obter uma grande redução no espaço ocupado pelo índice. O método pode ser utilizado em qualquer máquina de busca para melhorar sua eficiência em termos de tempo de processamento e espaço ocupado pelo índice, praticamente sem perdas na qualidade dos resultados da consulta. Experimentos utilizando uma máquina de busca real mostram que a técnica apresentada reduz os custos de armazenamento do índice em até 50% com relação ao índice sem compressão. Uma consequência dessa redução no tamanho do índice é que o tempo de processamento de uma consulta pode ser reduzido a aproximadamente 45% do tempo original, sem perda na precisão média. Considerando a qualidade do 'ranking' produzido, o espaço ocupado pelo índice e o tempo de resposta a consultas, estudos comparativos com os dois melhores algoritmos de compressão de índices conhecidos na literatura mostram que o algoritmo proposto é bastante competitivo. Por exemplo, tanto a curva de similaridade entre os 'rankings' quanto a precisão média das respostas do algoritmo proposto e o melhor algoritmo dentre os dois considerados na comparação se mantêm aproximadamente iguais para os diferentes níveis de poda. Quanto ao tempo de resposta o algoritmo proposto é mais rápido do que o melhor algoritmo dentre os dois considerados na comparação. 2005-07-07 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/1843/RVMR-6EAG2L por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010004P6 - CIÊNCIA DA COMPUTAÇÃO UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
description	=== O crescimento inexorável do volume de documentos na World Wide Web coloca um grande desafio para as máquinas de busca, não apenas com relação a eficácia as também com relação a eficiência de espaço e de tempo. Esta dissertação apresenta um novo método de compressão com perda (poda) para arquivos invertidos que considera o aspecto eficiência sem desconsiderar a eficácia. O método proposto é baseado na análise de 'logs' de consultas passadas para obter uma grande redução no espaço ocupado pelo índice. O método pode ser utilizado em qualquer máquina de busca para melhorar sua eficiência em termos de tempo de processamento e espaço ocupado pelo índice, praticamente sem perdas na qualidade dos resultados da consulta. Experimentos utilizando uma máquina de busca real mostram que a técnica apresentada reduz os custos de armazenamento do índice em até 50% com relação ao índice sem compressão. Uma consequência dessa redução no tamanho do índice é que o tempo de processamento de uma consulta pode ser reduzido a aproximadamente 45% do tempo original, sem perda na precisão média. Considerando a qualidade do 'ranking' produzido, o espaço ocupado pelo índice e o tempo de resposta a consultas, estudos comparativos com os dois melhores algoritmos de compressão de índices conhecidos na literatura mostram que o algoritmo proposto é bastante competitivo. Por exemplo, tanto a curva de similaridade entre os 'rankings' quanto a precisão média das respostas do algoritmo proposto e o melhor algoritmo dentre os dois considerados na comparação se mantêm aproximadamente iguais para os diferentes níveis de poda. Quanto ao tempo de resposta o algoritmo proposto é mais rápido do que o melhor algoritmo dentre os dois considerados na comparação.
author2	Nivio Ziviani
author_facet	Nivio Ziviani Charles Ornelas Almeida
author	Charles Ornelas Almeida
spellingShingle	Charles Ornelas Almeida Poda estática para índices invertidos baseada em logs
author_sort	Charles Ornelas Almeida
title	Poda estática para índices invertidos baseada em logs
title_short	Poda estática para índices invertidos baseada em logs
title_full	Poda estática para índices invertidos baseada em logs
title_fullStr	Poda estática para índices invertidos baseada em logs
title_full_unstemmed	Poda estática para índices invertidos baseada em logs
title_sort	poda estática para índices invertidos baseada em logs
publisher	Universidade Federal de Minas Gerais
publishDate	2005
url	http://hdl.handle.net/1843/RVMR-6EAG2L
work_keys_str_mv	AT charlesornelasalmeida podaestaticaparaindicesinvertidosbaseadaemlogs
_version_	1718843395455057920

Poda estática para índices invertidos baseada em logs

Similar Items