Efficient K-means clustering and the importanceof seeding
Data clustering is the process of grouping data elements based on some aspect of similarity between the elements in the group. Clustering has many applications such as data compression, data mining, pattern recognition and machine learning and there are many different clustering methods. This paper...
Main Authors: | , |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för datavetenskap och kommunikation (CSC)
2013
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-134910 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-134910 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1349102018-01-12T05:12:43ZEfficient K-means clustering and the importanceof seedingengELIASSON, PHILIPROSÉN, NIKLASKTH, Skolan för datavetenskap och kommunikation (CSC)KTH, Skolan för datavetenskap och kommunikation (CSC)2013Computer SciencesDatavetenskap (datalogi)Data clustering is the process of grouping data elements based on some aspect of similarity between the elements in the group. Clustering has many applications such as data compression, data mining, pattern recognition and machine learning and there are many different clustering methods. This paper examines the k-means method of clustering and how the choice of initial seeding affects the result. Lloyd’s algorithm is used as a base line and it is compared to an improved algorithm utilizing kd-trees. Two different methods of seeding are compared, random seeding and partial clustering seeding. Klustring av data innebär att man grupperar dataelement baserat på någon typ a likhet mellan de grupperade elementen. Klustring har många olika användningsråden såsom datakompression, datautvinning, mönsterigenkänning, och maskininlärning och det finns många olika klustringsmetoder. Den här uppsatsen undersöker klustringsmetoden k-means och hur valet av startvärden för metoden påverkar resultatet. Lloyds algorithm används som utgångspunkt och den jämförs med en förbättrad algorithm som använder sig av kd-träd. Två olika metoder att välja startvärden jämförs, slumpmässigt val av startvärde och delklustring. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-134910Kandidatexjobb CSC ; K13021application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
Computer Sciences Datavetenskap (datalogi) ELIASSON, PHILIP ROSÉN, NIKLAS Efficient K-means clustering and the importanceof seeding |
description |
Data clustering is the process of grouping data elements based on some aspect of similarity between the elements in the group. Clustering has many applications such as data compression, data mining, pattern recognition and machine learning and there are many different clustering methods. This paper examines the k-means method of clustering and how the choice of initial seeding affects the result. Lloyd’s algorithm is used as a base line and it is compared to an improved algorithm utilizing kd-trees. Two different methods of seeding are compared, random seeding and partial clustering seeding. === Klustring av data innebär att man grupperar dataelement baserat på någon typ a likhet mellan de grupperade elementen. Klustring har många olika användningsråden såsom datakompression, datautvinning, mönsterigenkänning, och maskininlärning och det finns många olika klustringsmetoder. Den här uppsatsen undersöker klustringsmetoden k-means och hur valet av startvärden för metoden påverkar resultatet. Lloyds algorithm används som utgångspunkt och den jämförs med en förbättrad algorithm som använder sig av kd-träd. Två olika metoder att välja startvärden jämförs, slumpmässigt val av startvärde och delklustring. |
author |
ELIASSON, PHILIP ROSÉN, NIKLAS |
author_facet |
ELIASSON, PHILIP ROSÉN, NIKLAS |
author_sort |
ELIASSON, PHILIP |
title |
Efficient K-means clustering and the importanceof seeding |
title_short |
Efficient K-means clustering and the importanceof seeding |
title_full |
Efficient K-means clustering and the importanceof seeding |
title_fullStr |
Efficient K-means clustering and the importanceof seeding |
title_full_unstemmed |
Efficient K-means clustering and the importanceof seeding |
title_sort |
efficient k-means clustering and the importanceof seeding |
publisher |
KTH, Skolan för datavetenskap och kommunikation (CSC) |
publishDate |
2013 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-134910 |
work_keys_str_mv |
AT eliassonphilip efficientkmeansclusteringandtheimportanceofseeding AT rosenniklas efficientkmeansclusteringandtheimportanceofseeding |
_version_ |
1718606299617296384 |