Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados

Submitted by Guilherme Priólli Daniel (gui.computacao@yahoo.com.br) on 2016-09-06T13:30:29Z No. of bitstreams: 1 Dissertação_final.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) === Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.b...

Full description

Bibliographic Details
Main Author:	Daniel, Guilherme Priólli [UNESP]
Other Authors:	Universidade Estadual Paulista (UNESP)
Language:	Portuguese
Published:	Universidade Estadual Paulista (UNESP) 2016
Subjects:	VDBSCAN-MR OVDBSCAN-MR Big Data Prospecção de dados espaciais Spatial Data Mining Agrupamento Espacial Spatial Clustering MapReduce
Online Access:	http://hdl.handle.net/11449/143832

id	ndltd-IBICT-oai-repositorio.unesp.br-11449-143832
record_format	oai_dc
collection	NDLTD
language	Portuguese
sources	NDLTD
topic	VDBSCAN-MR OVDBSCAN-MR Big Data Prospecção de dados espaciais Spatial Data Mining Agrupamento Espacial Spatial Clustering MapReduce
spellingShingle	VDBSCAN-MR OVDBSCAN-MR Big Data Prospecção de dados espaciais Spatial Data Mining Agrupamento Espacial Spatial Clustering MapReduce Daniel, Guilherme Priólli [UNESP] Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
description	Submitted by Guilherme Priólli Daniel (gui.computacao@yahoo.com.br) on 2016-09-06T13:30:29Z No. of bitstreams: 1 Dissertação_final.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) === Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.br) on 2016-09-09T17:54:56Z (GMT) No. of bitstreams: 1 daniel_gp_me_sjrp.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) === Made available in DSpace on 2016-09-09T17:54:56Z (GMT). No. of bitstreams: 1 daniel_gp_me_sjrp.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) Previous issue date: 2016-08-12 === Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) === A quantidade de dados gerenciados por serviços Web de grande escala tem crescido significantemente e passaram a ser chamados de Big Data. Esses conjuntos de dados podem ser definidos como um grande volume de dados complexos provenientes de múltiplas fontes que ultrapassam a capacidade de armazenamento e processamento dos computadores atuais. Dentro desses conjuntos, estima-se que 80% dos dados possuem associação com alguma posição espacial. Os dados espaciais são mais complexos e demandam mais tempo de processamento que os dados alfanuméricos. Nesse sentido, as técnicas de MapReduce e sua implementação têm sido utilizadas a fim de retornar resultados em tempo hábil com a paralelização dos algoritmos de prospecção de dados. Portanto, o presente trabalho propõe dois algoritmos de agrupamento espacial baseado em densidade: o VDBSCAN-MR e o OVDBSCAN-MR. Ambos os algoritmos utilizam técnicas de processamento distribuído e escalável baseadas no modelo de programação MapReduce com intuito de otimizar o desempenho e permitir a análise em conjuntos Big Data. Por meio dos experimentos realizados foi possível verificar que os algoritmos desenvolvidos apresentaram melhor qualidade nos agrupamentos encontrados em comparação com os algoritmos tomados como base. Além disso, o VDBSCAN-MR obteve um melhor desempenho que o algoritmo sequencial e suportou a aplicação em grandes conjuntos de dados espaciais. === The amount of data managed by large-scale Web services has increased significantly and it arise to the status of Big Data. These data sets can be defined as a large volume of complex data from multiple data sources exceeding the storage and processing capacity of current computers. In such data sets, about 80% of the data is associated with some spatial position. Spatial data is even more complex and require more processing time than what would be required for alphanumeric data. In that sense, MapReduce techniques and their implementation have returned results timely with parallelization of data mining algorithms and could apply for Big Data sets. Therefore, this work develops two density-based spatial clustering algorithms: VDBSCAN-MR and OVDBSCAN-MR. Both algorithms use distributed and scalable processing techniques based on the MapReduce programming model in order to optimize performance and enable Big Data analysis. Throughout experimentation, we observed that the developed algorithms have better quality clusters compared to the base algorithms. Furthermore, VDBSCAN-MR achieved a better performance than the original sequential algorithm and it supported the application on large spatial data sets.
author2	Universidade Estadual Paulista (UNESP)
author_facet	Universidade Estadual Paulista (UNESP) Daniel, Guilherme Priólli [UNESP]
author	Daniel, Guilherme Priólli [UNESP]
author_sort	Daniel, Guilherme Priólli [UNESP]
title	Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_short	Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_full	Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_fullStr	Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_full_unstemmed	Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
title_sort	otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados
publisher	Universidade Estadual Paulista (UNESP)
publishDate	2016
url	http://hdl.handle.net/11449/143832
work_keys_str_mv	AT danielguilhermepriolliunesp otimizacaodealgoritmosdeagrupamentoespacialbaseadoemdensidadeaplicadosemgrandesconjuntosdedados AT danielguilhermepriolliunesp optimizationofdensitybasedspatialclusteringalgorithmsappliedtolargedatasets
_version_	1718662211712319488
spelling	ndltd-IBICT-oai-repositorio.unesp.br-11449-1438322018-05-23T20:49:31Z Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados Optimization of Density-Based Spatial Clustering Algorithms Applied to Large Data Sets Daniel, Guilherme Priólli [UNESP] Universidade Estadual Paulista (UNESP) Valêncio, Carlos Roberto [UNESP] VDBSCAN-MR OVDBSCAN-MR Big Data Prospecção de dados espaciais Spatial Data Mining Agrupamento Espacial Spatial Clustering MapReduce Submitted by Guilherme Priólli Daniel (gui.computacao@yahoo.com.br) on 2016-09-06T13:30:29Z No. of bitstreams: 1 Dissertação_final.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.br) on 2016-09-09T17:54:56Z (GMT) No. of bitstreams: 1 daniel_gp_me_sjrp.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) Made available in DSpace on 2016-09-09T17:54:56Z (GMT). No. of bitstreams: 1 daniel_gp_me_sjrp.pdf: 2456534 bytes, checksum: 4d2279141f7c034de1e4e4e261805db8 (MD5) Previous issue date: 2016-08-12 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) A quantidade de dados gerenciados por serviços Web de grande escala tem crescido significantemente e passaram a ser chamados de Big Data. Esses conjuntos de dados podem ser definidos como um grande volume de dados complexos provenientes de múltiplas fontes que ultrapassam a capacidade de armazenamento e processamento dos computadores atuais. Dentro desses conjuntos, estima-se que 80% dos dados possuem associação com alguma posição espacial. Os dados espaciais são mais complexos e demandam mais tempo de processamento que os dados alfanuméricos. Nesse sentido, as técnicas de MapReduce e sua implementação têm sido utilizadas a fim de retornar resultados em tempo hábil com a paralelização dos algoritmos de prospecção de dados. Portanto, o presente trabalho propõe dois algoritmos de agrupamento espacial baseado em densidade: o VDBSCAN-MR e o OVDBSCAN-MR. Ambos os algoritmos utilizam técnicas de processamento distribuído e escalável baseadas no modelo de programação MapReduce com intuito de otimizar o desempenho e permitir a análise em conjuntos Big Data. Por meio dos experimentos realizados foi possível verificar que os algoritmos desenvolvidos apresentaram melhor qualidade nos agrupamentos encontrados em comparação com os algoritmos tomados como base. Além disso, o VDBSCAN-MR obteve um melhor desempenho que o algoritmo sequencial e suportou a aplicação em grandes conjuntos de dados espaciais. The amount of data managed by large-scale Web services has increased significantly and it arise to the status of Big Data. These data sets can be defined as a large volume of complex data from multiple data sources exceeding the storage and processing capacity of current computers. In such data sets, about 80% of the data is associated with some spatial position. Spatial data is even more complex and require more processing time than what would be required for alphanumeric data. In that sense, MapReduce techniques and their implementation have returned results timely with parallelization of data mining algorithms and could apply for Big Data sets. Therefore, this work develops two density-based spatial clustering algorithms: VDBSCAN-MR and OVDBSCAN-MR. Both algorithms use distributed and scalable processing techniques based on the MapReduce programming model in order to optimize performance and enable Big Data analysis. Throughout experimentation, we observed that the developed algorithms have better quality clusters compared to the base algorithms. Furthermore, VDBSCAN-MR achieved a better performance than the original sequential algorithm and it supported the application on large spatial data sets. 2016-09-09T17:54:56Z 2016-09-09T17:54:56Z 2016-08-12 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/11449/143832 000872399 33004153073P2 por 600 info:eu-repo/semantics/openAccess Universidade Estadual Paulista (UNESP) reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista instacron:UNESP

Otimização de algoritmos de agrupamento espacial baseado em densidade aplicados em grandes conjuntos de dados

Similar Items