Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-08-17T19:06:03Z No. of bitstreams: 1 473651 - Texto Completo.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) === Made available in DSpace on 2015-08-17T19:06:03Z (GMT). No. of bitstreams: 1 47365...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Pontif?cia Universidade Cat?lica do Rio Grande do Sul
2015
|
Subjects: | |
Online Access: | http://tede2.pucrs.br/tede2/handle/tede/6254 |
id |
ndltd-IBICT-oai-tede2.pucrs.br-tede-6254 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
INFORM?TICA MINERA??O DE DADOS (INFORM?TICA) CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
spellingShingle |
INFORM?TICA MINERA??O DE DADOS (INFORM?TICA) CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Carvalho, Juliano Varella de Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza |
description |
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-08-17T19:06:03Z
No. of bitstreams: 1
473651 - Texto Completo.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) === Made available in DSpace on 2015-08-17T19:06:03Z (GMT). No. of bitstreams: 1
473651 - Texto Completo.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5)
Previous issue date: 2015-03-20 === Frequent Itemsets Mining (FIM) is a data mining task used to find relations between dataset items. Apriori is the traditional algorithm of the Generate-and-Test class to discover these relations. Recent studies show that this algorithm and others of this task are not adapted to execute in contexts with uncertainty because these algorithms are not prepared to handle with the probabilities associated to items of the dataset. Nowadays, data with uncertainty occur in many applications, for example, data collected from sensors, information about the presence of objects in satellite images and data
from application of statistical methods. Due to big datasets with associated uncertainty, new algorithms have been developed to work in this context: UApriori, UF-Growth and UH-Mine. UApriori, specially, is an algorithm based in expected support, often addressed by scientific community. On the one hand, when this algorithm is applied to big datasets, in a context with associated probabilities to dataset items, it does not present good scalability. On the other hand, some works have evolved the Apriori algorithm joining with the model of programming MapReduce, in order to get a better scalability. With this model, it is possible to discover frequent itemsets using parallel and distributed computation. However, these works focus their efforts on discovering frequent itemsets on deterministic datasets. This thesis present the development, implementation and experiments applied to three algorithms: UAprioriMR, UAprioriMRByT and UAprioriMRJoin. The three cited algorithms evolve the traditional algorithm Apriori, integrating the model of programming MapReduce, on contexts with uncertainty. The algorithm UAprioriMRJoin is a hybrid algorithm based on the UAprioriMR and UAprioriMRByT algorithms. The experiments expose the good performance of the UAprioriMRJoin algorithm, when applied on big datasets, with many distinct items and a small average number of items per transaction in a cluster of nodes. === Frequent Itemsets Mining (FIM) ? uma tarefa de minera??o de dados utilizada para encontrar
rela??es entre os itens de um dataset. O Apriori ? um tradicional algoritmo da classe Generateand-
Test para descobrir tais rela??es. Estudos recentes mostram que este e outros algoritmos desta
tarefa n?o est?o aptos para executar em contextos onde haja incerteza associada, pois eles n?o
est?o preparados para lidar com as probabilidades existentes nos itens do dataset. A incerteza nos
dados ocorre em diversas aplica??es como, por exemplo, dados coletados de sensores, informa??es
sobre a presen?a de objetos em imagens de sat?lite e dados provenientes da aplica??o de m?todos
estat?sticos. Dada a grande quantidade de dados com incertezas associadas, novos algoritmos
t?m sido desenvolvidos para trabalharem neste contexto: UApriori, UF-Growth e UH-Mine. O
UApriori, em especial, ? um algoritmo baseado em suporte esperado, abordado frequentemente
pela comunidade acad?mica. Quando este algoritmo ? aplicado sobre grandes datasets, em um
contexto com probabilidades associadas aos itens do dataset, ele n?o apresenta boa escalabilidade.
Por outro lado, alguns trabalhos t?m adaptado o algoritmo Apriori para trabalhar com o modelo
de programa??o MapReduce, a fim de prover uma melhor escalabilidade. Utilizando este modelo, ?
poss?vel descobrir itens frequentes de modo paralelo e distribu?do. No entanto, tais trabalhos focam
seus esfor?os na descoberta de itens frequentes sobre datasets determin?sticos. Esta tese apresenta
o desenvolvimento, implementa??o e os experimentos realizados, a partir da aplica??o e discuss?o
de tr?s algoritmos: UAprioriMR, UAprioriMRByT e UAprioriMRJoin. Os tr?s algoritmos citados
evoluem o algoritmo tradicional Apriori para que possam executar com o modelo de programa??o
MapReduce sobre contextos com incerteza associada. O algoritmo UAprioriMRJoin ? um algoritmo
h?brido com base nos algoritmos UAprioriMR e UAprioriMRByT. Os experimentos revelam o bom
desempenho do algoritmo UAprioriMRJoin quando aplicado sobre grandes datasets, com muitos
atributos e um n?mero m?dio pequeno de itens por transa??o, em um cluster de nodos. |
author2 |
Ruiz, Duncan Dubugras Alcoba |
author_facet |
Ruiz, Duncan Dubugras Alcoba Carvalho, Juliano Varella de |
author |
Carvalho, Juliano Varella de |
author_sort |
Carvalho, Juliano Varella de |
title |
Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza |
title_short |
Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza |
title_full |
Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza |
title_fullStr |
Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza |
title_full_unstemmed |
Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza |
title_sort |
descoberta de conjuntos de itens frequentes com o modelo de programa??o mapreduce sobre contextos de incerteza |
publisher |
Pontif?cia Universidade Cat?lica do Rio Grande do Sul |
publishDate |
2015 |
url |
http://tede2.pucrs.br/tede2/handle/tede/6254 |
work_keys_str_mv |
AT carvalhojulianovarellade descobertadeconjuntosdeitensfrequentescomomodelodeprogramaomapreducesobrecontextosdeincerteza |
_version_ |
1718954574301102080 |
spelling |
ndltd-IBICT-oai-tede2.pucrs.br-tede-62542019-01-22T02:42:08Z Descoberta de conjuntos de itens frequentes com o modelo de programa??o MapReduce sobre contextos de incerteza Carvalho, Juliano Varella de Ruiz, Duncan Dubugras Alcoba INFORM?TICA MINERA??O DE DADOS (INFORM?TICA) CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2015-08-17T19:06:03Z No. of bitstreams: 1 473651 - Texto Completo.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) Made available in DSpace on 2015-08-17T19:06:03Z (GMT). No. of bitstreams: 1 473651 - Texto Completo.pdf: 15125610 bytes, checksum: 0ae5116bc2669408e12c87781990c0a8 (MD5) Previous issue date: 2015-03-20 Frequent Itemsets Mining (FIM) is a data mining task used to find relations between dataset items. Apriori is the traditional algorithm of the Generate-and-Test class to discover these relations. Recent studies show that this algorithm and others of this task are not adapted to execute in contexts with uncertainty because these algorithms are not prepared to handle with the probabilities associated to items of the dataset. Nowadays, data with uncertainty occur in many applications, for example, data collected from sensors, information about the presence of objects in satellite images and data from application of statistical methods. Due to big datasets with associated uncertainty, new algorithms have been developed to work in this context: UApriori, UF-Growth and UH-Mine. UApriori, specially, is an algorithm based in expected support, often addressed by scientific community. On the one hand, when this algorithm is applied to big datasets, in a context with associated probabilities to dataset items, it does not present good scalability. On the other hand, some works have evolved the Apriori algorithm joining with the model of programming MapReduce, in order to get a better scalability. With this model, it is possible to discover frequent itemsets using parallel and distributed computation. However, these works focus their efforts on discovering frequent itemsets on deterministic datasets. This thesis present the development, implementation and experiments applied to three algorithms: UAprioriMR, UAprioriMRByT and UAprioriMRJoin. The three cited algorithms evolve the traditional algorithm Apriori, integrating the model of programming MapReduce, on contexts with uncertainty. The algorithm UAprioriMRJoin is a hybrid algorithm based on the UAprioriMR and UAprioriMRByT algorithms. The experiments expose the good performance of the UAprioriMRJoin algorithm, when applied on big datasets, with many distinct items and a small average number of items per transaction in a cluster of nodes. Frequent Itemsets Mining (FIM) ? uma tarefa de minera??o de dados utilizada para encontrar rela??es entre os itens de um dataset. O Apriori ? um tradicional algoritmo da classe Generateand- Test para descobrir tais rela??es. Estudos recentes mostram que este e outros algoritmos desta tarefa n?o est?o aptos para executar em contextos onde haja incerteza associada, pois eles n?o est?o preparados para lidar com as probabilidades existentes nos itens do dataset. A incerteza nos dados ocorre em diversas aplica??es como, por exemplo, dados coletados de sensores, informa??es sobre a presen?a de objetos em imagens de sat?lite e dados provenientes da aplica??o de m?todos estat?sticos. Dada a grande quantidade de dados com incertezas associadas, novos algoritmos t?m sido desenvolvidos para trabalharem neste contexto: UApriori, UF-Growth e UH-Mine. O UApriori, em especial, ? um algoritmo baseado em suporte esperado, abordado frequentemente pela comunidade acad?mica. Quando este algoritmo ? aplicado sobre grandes datasets, em um contexto com probabilidades associadas aos itens do dataset, ele n?o apresenta boa escalabilidade. Por outro lado, alguns trabalhos t?m adaptado o algoritmo Apriori para trabalhar com o modelo de programa??o MapReduce, a fim de prover uma melhor escalabilidade. Utilizando este modelo, ? poss?vel descobrir itens frequentes de modo paralelo e distribu?do. No entanto, tais trabalhos focam seus esfor?os na descoberta de itens frequentes sobre datasets determin?sticos. Esta tese apresenta o desenvolvimento, implementa??o e os experimentos realizados, a partir da aplica??o e discuss?o de tr?s algoritmos: UAprioriMR, UAprioriMRByT e UAprioriMRJoin. Os tr?s algoritmos citados evoluem o algoritmo tradicional Apriori para que possam executar com o modelo de programa??o MapReduce sobre contextos com incerteza associada. O algoritmo UAprioriMRJoin ? um algoritmo h?brido com base nos algoritmos UAprioriMR e UAprioriMRByT. Os experimentos revelam o bom desempenho do algoritmo UAprioriMRJoin quando aplicado sobre grandes datasets, com muitos atributos e um n?mero m?dio pequeno de itens por transa??o, em um cluster de nodos. 2015-08-17T19:06:03Z 2015-03-20 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://tede2.pucrs.br/tede2/handle/tede/6254 por 1974996533081274470 600 600 600 -3008542510401149144 3671711205811204509 info:eu-repo/semantics/openAccess application/pdf Pontif?cia Universidade Cat?lica do Rio Grande do Sul Programa de P?s-Gradua??o em Ci?ncia da Computa??o PUCRS Brasil Faculdade de Inform?tica reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul instacron:PUC_RS |