Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza

Made available in DSpace on 2015-08-18T02:05:38Z (GMT). No. of bitstreams: 1 000473651-Texto+Completo-0.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) Previous issue date: 2015 === Frequent Itemsets Mining (FIM) is a data mining task used to find relations between dataset it...

Full description

Bibliographic Details
Main Author: Carvalho, Juliano Varella de
Other Authors: Ruiz, Duncan Dubugras Alcoba
Language:Portuguese
Published: Pontifícia Universidade Católica do Rio Grande do Sul 2015
Subjects:
Online Access:http://hdl.handle.net/10923/7509
id ndltd-IBICT-urn-repox.ist.utl.pt-RI_PUC_RS-oai-meriva.pucrs.br-10923-7509
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic INFORMÁTICA
MINERAÇÃO DE DADOS (INFORMÁTICA)
spellingShingle INFORMÁTICA
MINERAÇÃO DE DADOS (INFORMÁTICA)
Carvalho, Juliano Varella de
Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza
description Made available in DSpace on 2015-08-18T02:05:38Z (GMT). No. of bitstreams: 1 000473651-Texto+Completo-0.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) Previous issue date: 2015 === Frequent Itemsets Mining (FIM) is a data mining task used to find relations between dataset items. Apriori is the traditional algorithm of the Generate-and-Test class to discover these relations. Recent studies show that this algorithm and others of this task are not adapted to execute in contexts with uncertainty because these algorithms are not prepared to handle with the probabilities associated to items of the dataset. Nowadays, data with uncertainty occur in many applications, for example, data collected from sensors, information about the presence of objects in satellite images and data from application of statistical methods. Due to big datasets with associated uncertainty, new algorithms have been developed to work in this context: UApriori, UF-Growth and UH-Mine. UApriori, specially, is an algorithm based in expected support, often addressed by scientific community. On the one hand, when this algorithm is applied to big datasets, in a context with associated probabilities to dataset items, it does not present good scalability. On the other hand, some works have evolved the Apriori algorithm joining with the model of programming MapReduce, in order to get a better scalability. With this model, it is possible to discover frequent itemsets using parallel and distributed computation. However, these works focus their efforts on discovering frequent itemsets on deterministic datasets. This thesis present the development, implementation and experiments applied to three algorithms: UAprioriMR, UAprioriMRByT and UAprioriMRJoin. The three cited algorithms evolve the traditional algorithm Apriori, integrating the model of programming MapReduce, on contexts with uncertainty. The algorithm UAprioriMRJoin is a hybrid algorithm based on the UAprioriMR and UAprioriMRByT algorithms. The experiments expose the good performance of the UAprioriMRJoin algorithm, when applied on big datasets, with many distinct items and a small average number of items per transaction in a cluster of nodes. === Frequent Itemsets Mining (FIM) é uma tarefa de mineração de dados utilizada para encontrar relações entre os itens de um dataset. O Apriori é um tradicional algoritmo da classe Generateand- Test para descobrir tais relações. Estudos recentes mostram que este e outros algoritmos desta tarefa não estão aptos para executar em contextos onde haja incerteza associada, pois eles não estão preparados para lidar com as probabilidades existentes nos itens do dataset. A incerteza nos dados ocorre em diversas aplicações como, por exemplo, dados coletados de sensores, informações sobre a presença de objetos em imagens de satélite e dados provenientes da aplicação de métodos estatísticos. Dada a grande quantidade de dados com incertezas associadas, novos algoritmos têm sido desenvolvidos para trabalharem neste contexto: UApriori, UF-Growth e UH-Mine. O UApriori, em especial, é um algoritmo baseado em suporte esperado, abordado frequentemente pela comunidade acadêmica. Quando este algoritmo é aplicado sobre grandes datasets, em um contexto com probabilidades associadas aos itens do dataset, ele não apresenta boa escalabilidade. Por outro lado, alguns trabalhos têm adaptado o algoritmo Apriori para trabalhar com o modelo de programação MapReduce, a fim de prover uma melhor escalabilidade. Utilizando este modelo, é possível descobrir itens frequentes de modo paralelo e distribuído. No entanto, tais trabalhos focam seus esforços na descoberta de itens frequentes sobre datasets determinísticos. Esta tese apresenta o desenvolvimento, implementação e os experimentos realizados, a partir da aplicação e discussão de três algoritmos: UAprioriMR, UAprioriMRByT e UAprioriMRJoin. Os três algoritmos citados evoluem o algoritmo tradicional Apriori para que possam executar com o modelo de programação MapReduce sobre contextos com incerteza associada. O algoritmo UAprioriMRJoin é um algoritmo híbrido com base nos algoritmos UAprioriMR e UAprioriMRByT. Os experimentos revelam o bom desempenho do algoritmo UAprioriMRJoin quando aplicado sobre grandes datasets, com muitos atributos e um número médio pequeno de itens por transação, em um cluster de nodos.
author2 Ruiz, Duncan Dubugras Alcoba
author_facet Ruiz, Duncan Dubugras Alcoba
Carvalho, Juliano Varella de
author Carvalho, Juliano Varella de
author_sort Carvalho, Juliano Varella de
title Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza
title_short Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza
title_full Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza
title_fullStr Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza
title_full_unstemmed Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza
title_sort descoberta de conjuntos de itens frequentes com o modelo de programação mapreduce sobre contextos de incerteza
publisher Pontifícia Universidade Católica do Rio Grande do Sul
publishDate 2015
url http://hdl.handle.net/10923/7509
work_keys_str_mv AT carvalhojulianovarellade descobertadeconjuntosdeitensfrequentescomomodelodeprogramacaomapreducesobrecontextosdeincerteza
_version_ 1718679338616881152
spelling ndltd-IBICT-urn-repox.ist.utl.pt-RI_PUC_RS-oai-meriva.pucrs.br-10923-75092018-05-24T00:01:40Z Descoberta de conjuntos de itens frequentes com o modelo de programação MapReduce sobre contextos de incerteza Carvalho, Juliano Varella de Ruiz, Duncan Dubugras Alcoba INFORMÁTICA MINERAÇÃO DE DADOS (INFORMÁTICA) Made available in DSpace on 2015-08-18T02:05:38Z (GMT). No. of bitstreams: 1 000473651-Texto+Completo-0.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) Previous issue date: 2015 Frequent Itemsets Mining (FIM) is a data mining task used to find relations between dataset items. Apriori is the traditional algorithm of the Generate-and-Test class to discover these relations. Recent studies show that this algorithm and others of this task are not adapted to execute in contexts with uncertainty because these algorithms are not prepared to handle with the probabilities associated to items of the dataset. Nowadays, data with uncertainty occur in many applications, for example, data collected from sensors, information about the presence of objects in satellite images and data from application of statistical methods. Due to big datasets with associated uncertainty, new algorithms have been developed to work in this context: UApriori, UF-Growth and UH-Mine. UApriori, specially, is an algorithm based in expected support, often addressed by scientific community. On the one hand, when this algorithm is applied to big datasets, in a context with associated probabilities to dataset items, it does not present good scalability. On the other hand, some works have evolved the Apriori algorithm joining with the model of programming MapReduce, in order to get a better scalability. With this model, it is possible to discover frequent itemsets using parallel and distributed computation. However, these works focus their efforts on discovering frequent itemsets on deterministic datasets. This thesis present the development, implementation and experiments applied to three algorithms: UAprioriMR, UAprioriMRByT and UAprioriMRJoin. The three cited algorithms evolve the traditional algorithm Apriori, integrating the model of programming MapReduce, on contexts with uncertainty. The algorithm UAprioriMRJoin is a hybrid algorithm based on the UAprioriMR and UAprioriMRByT algorithms. The experiments expose the good performance of the UAprioriMRJoin algorithm, when applied on big datasets, with many distinct items and a small average number of items per transaction in a cluster of nodes. Frequent Itemsets Mining (FIM) é uma tarefa de mineração de dados utilizada para encontrar relações entre os itens de um dataset. O Apriori é um tradicional algoritmo da classe Generateand- Test para descobrir tais relações. Estudos recentes mostram que este e outros algoritmos desta tarefa não estão aptos para executar em contextos onde haja incerteza associada, pois eles não estão preparados para lidar com as probabilidades existentes nos itens do dataset. A incerteza nos dados ocorre em diversas aplicações como, por exemplo, dados coletados de sensores, informações sobre a presença de objetos em imagens de satélite e dados provenientes da aplicação de métodos estatísticos. Dada a grande quantidade de dados com incertezas associadas, novos algoritmos têm sido desenvolvidos para trabalharem neste contexto: UApriori, UF-Growth e UH-Mine. O UApriori, em especial, é um algoritmo baseado em suporte esperado, abordado frequentemente pela comunidade acadêmica. Quando este algoritmo é aplicado sobre grandes datasets, em um contexto com probabilidades associadas aos itens do dataset, ele não apresenta boa escalabilidade. Por outro lado, alguns trabalhos têm adaptado o algoritmo Apriori para trabalhar com o modelo de programação MapReduce, a fim de prover uma melhor escalabilidade. Utilizando este modelo, é possível descobrir itens frequentes de modo paralelo e distribuído. No entanto, tais trabalhos focam seus esforços na descoberta de itens frequentes sobre datasets determinísticos. Esta tese apresenta o desenvolvimento, implementação e os experimentos realizados, a partir da aplicação e discussão de três algoritmos: UAprioriMR, UAprioriMRByT e UAprioriMRJoin. Os três algoritmos citados evoluem o algoritmo tradicional Apriori para que possam executar com o modelo de programação MapReduce sobre contextos com incerteza associada. O algoritmo UAprioriMRJoin é um algoritmo híbrido com base nos algoritmos UAprioriMR e UAprioriMRByT. Os experimentos revelam o bom desempenho do algoritmo UAprioriMRJoin quando aplicado sobre grandes datasets, com muitos atributos e um número médio pequeno de itens por transação, em um cluster de nodos. 2015-08-18T02:05:38Z 2015-08-18T02:05:38Z 2015 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/10923/7509 por info:eu-repo/semantics/openAccess Pontifícia Universidade Católica do Rio Grande do Sul Porto Alegre reponame:Repositório Institucional da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul instacron:PUC_RS