Busca indexada de padrões em textos comprimidos

A busca de palavras em uma grande coleção de documentos é um problema muito recorrente nos dias de hoje, como a própria utilização dos conhecidos \"motores de busca\" revela. Para que as buscas sejam realizadas em tempo que independa do tamanho da coleção, é necessário que a coleção se...

Full description

Bibliographic Details
Main Author:	Lennon de Almeida Machado
Other Authors:	Alair Pereira do Lago
Language:	Portuguese
Published:	Universidade de São Paulo 2010
Subjects:	busca indexada de textos comprimidos códigos-prefixos compressão de dados compressão Huffman data compression Huffman coding indexed search in compressed texts prex code
Online Access:	http://www.teses.usp.br/teses/disponiveis/45/45134/tde-09062010-222653/

id	ndltd-IBICT-oai-teses.usp.br-tde-09062010-222653
record_format	oai_dc
spelling	ndltd-IBICT-oai-teses.usp.br-tde-09062010-2226532019-01-21T22:04:18Z Busca indexada de padrões em textos comprimidos Indexed search of compressed texts Lennon de Almeida Machado Alair Pereira do Lago Carlos Eduardo Ferreira Adriano Cesar Machado Pereira busca indexada de textos comprimidos códigos-prefixos compressão de dados compressão Huffman data compression Huffman coding indexed search in compressed texts prex code A busca de palavras em uma grande coleção de documentos é um problema muito recorrente nos dias de hoje, como a própria utilização dos conhecidos \"motores de busca\" revela. Para que as buscas sejam realizadas em tempo que independa do tamanho da coleção, é necessário que a coleção seja indexada uma única vez. O tamanho destes índices é tipicamente linear no tamanho da coleção de documentos. A compressão de dados é outro recurso bastante utilizado para lidar com o tamanho sempre crescente da coleção de documentos. A intenção deste estudo é aliar a indexação utilizada nas buscas à compressão de dados, verificando alternativas às soluções já propostas e visando melhorias no tempo de resposta das buscas e no consumo de memória utilizada nos índices. A análise das estruturas de índice com os algoritmos de compressão mostra que arquivo invertido por blocos em conjuntos com compressão Huffman por palavras é uma ótima opção para sistemas com restrição de consumo de memória, pois proporciona acesso aleatório e busca comprimida. Neste trabalho também são propostas novas codificações livres de prefixo a fim de melhorar a compressão obtida e capaz de gerar códigos auto-sincronizados, ou seja, com acesso aleatório realmente viável. A vantagem destas novas codificações é que elas eliminam a necessidade de gerar a árvore de codificação Huffman através dos mapeamentos propostos, o que se traduz em economia de memória, codificação mais compacta e menor tempo de processamento. Os resultados obtidos mostram redução de 7% e 9% do tamanho dos arquivos comprimidos com tempos de compressão e descompressão melhores e menor consumo de memória. Pattern matching over a big document collection is a very recurrent problem nowadays, as the growing use of the search engines reveal. In order to accomplish the search in a period of time independent from the collection size, it is necessary to index the collecion only one time. The index size is typically linear in the size of document collection. Data compression is another powerful resource to manage the ever growing size of the document collection. The objective in this assignment is to ally the indexed search to data compression, verifying alternatives to the current solutions, seeking improvement in search time and memory usage. The analysis on the index structures and compression algorithms indicates that joining the block inverted les with Huffman word-based compression is an interesting solution because it provides random access and compressed search. New prefix free codes are proposed in this assignment in order to enhance the compression and facilitate the generation of self-sinchronized codes, furthermore, with a truly viable random access. The advantage in this new codes is that they eliminate the need of generating the Huffman-code tree through the proposed mappings, which stands for economy of memory, compact encoding and shorter processing time. The results demonstrate gains of 7% and 9% in the compressed le size, with better compression and decompression times and lower memory consumption. 2010-05-07 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/45/45134/tde-09062010-222653/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Ciência da Computação USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP
collection	NDLTD
language	Portuguese
sources	NDLTD
topic	busca indexada de textos comprimidos códigos-prefixos compressão de dados compressão Huffman data compression Huffman coding indexed search in compressed texts prex code
spellingShingle	busca indexada de textos comprimidos códigos-prefixos compressão de dados compressão Huffman data compression Huffman coding indexed search in compressed texts prex code Lennon de Almeida Machado Busca indexada de padrões em textos comprimidos
description	A busca de palavras em uma grande coleção de documentos é um problema muito recorrente nos dias de hoje, como a própria utilização dos conhecidos \"motores de busca\" revela. Para que as buscas sejam realizadas em tempo que independa do tamanho da coleção, é necessário que a coleção seja indexada uma única vez. O tamanho destes índices é tipicamente linear no tamanho da coleção de documentos. A compressão de dados é outro recurso bastante utilizado para lidar com o tamanho sempre crescente da coleção de documentos. A intenção deste estudo é aliar a indexação utilizada nas buscas à compressão de dados, verificando alternativas às soluções já propostas e visando melhorias no tempo de resposta das buscas e no consumo de memória utilizada nos índices. A análise das estruturas de índice com os algoritmos de compressão mostra que arquivo invertido por blocos em conjuntos com compressão Huffman por palavras é uma ótima opção para sistemas com restrição de consumo de memória, pois proporciona acesso aleatório e busca comprimida. Neste trabalho também são propostas novas codificações livres de prefixo a fim de melhorar a compressão obtida e capaz de gerar códigos auto-sincronizados, ou seja, com acesso aleatório realmente viável. A vantagem destas novas codificações é que elas eliminam a necessidade de gerar a árvore de codificação Huffman através dos mapeamentos propostos, o que se traduz em economia de memória, codificação mais compacta e menor tempo de processamento. Os resultados obtidos mostram redução de 7% e 9% do tamanho dos arquivos comprimidos com tempos de compressão e descompressão melhores e menor consumo de memória. === Pattern matching over a big document collection is a very recurrent problem nowadays, as the growing use of the search engines reveal. In order to accomplish the search in a period of time independent from the collection size, it is necessary to index the collecion only one time. The index size is typically linear in the size of document collection. Data compression is another powerful resource to manage the ever growing size of the document collection. The objective in this assignment is to ally the indexed search to data compression, verifying alternatives to the current solutions, seeking improvement in search time and memory usage. The analysis on the index structures and compression algorithms indicates that joining the block inverted les with Huffman word-based compression is an interesting solution because it provides random access and compressed search. New prefix free codes are proposed in this assignment in order to enhance the compression and facilitate the generation of self-sinchronized codes, furthermore, with a truly viable random access. The advantage in this new codes is that they eliminate the need of generating the Huffman-code tree through the proposed mappings, which stands for economy of memory, compact encoding and shorter processing time. The results demonstrate gains of 7% and 9% in the compressed le size, with better compression and decompression times and lower memory consumption.
author2	Alair Pereira do Lago
author_facet	Alair Pereira do Lago Lennon de Almeida Machado
author	Lennon de Almeida Machado
author_sort	Lennon de Almeida Machado
title	Busca indexada de padrões em textos comprimidos
title_short	Busca indexada de padrões em textos comprimidos
title_full	Busca indexada de padrões em textos comprimidos
title_fullStr	Busca indexada de padrões em textos comprimidos
title_full_unstemmed	Busca indexada de padrões em textos comprimidos
title_sort	busca indexada de padrões em textos comprimidos
publisher	Universidade de São Paulo
publishDate	2010
url	http://www.teses.usp.br/teses/disponiveis/45/45134/tde-09062010-222653/
work_keys_str_mv	AT lennondealmeidamachado buscaindexadadepadroesemtextoscomprimidos AT lennondealmeidamachado indexedsearchofcompressedtexts
_version_	1718890298970472448

Busca indexada de padrões em textos comprimidos

Similar Items