Kluster Bag of Word Menggunakan Weka

Dalam bidang pengolahan bahasa alami dan sistem temu balik informasi, representasi sebuah data teks sangat penting untuk mendukung proses analisis data statistik di dalamnya. Data teks dengan bentuk tidak terstruktur dapat direpresentasikan secara sederhana menggunakan sekumpulan set kata yang diseb...

Full description

Bibliographic Details
Main Authors: Tari Mardiana, Rudy Dwi Nyoto
Format: Article
Language:Indonesian
Published: Universitas Tanjungpura 2015-05-01
Series:JEPIN (Jurnal Edukasi dan Penelitian Informatika)
Online Access:http://jurnal.untan.ac.id/index.php/jepin/article/view/10145
id doaj-d3881f74baf54d3c98e3478153efc254
record_format Article
spelling doaj-d3881f74baf54d3c98e3478153efc2542020-11-24T21:06:56ZindUniversitas TanjungpuraJEPIN (Jurnal Edukasi dan Penelitian Informatika)2460-07412548-93642015-05-011110.26418/jp.v1i1.101458703Kluster Bag of Word Menggunakan WekaTari Mardiana0Rudy Dwi Nyoto1Universitas Gadjah MadaUniversitas TanjungpuraDalam bidang pengolahan bahasa alami dan sistem temu balik informasi, representasi sebuah data teks sangat penting untuk mendukung proses analisis data statistik di dalamnya. Data teks dengan bentuk tidak terstruktur dapat direpresentasikan secara sederhana menggunakan sekumpulan set kata yang disebut bag-of-words dan belum memiliki label atau kelas tertentu. Data unsupervised atau objek-objek yang belum memiliki label dapat dikelompokan menggunakan klustering berdasarkan kemiripan satu objek dengan objek lain. Artikel ini membahas perbandingan hasil pengelompokan unsupervised data menggunakan algoritma kluster yang tersedia pada tools Weka, yaitu SimpleKMeans, X-Means, dan Farthest First. SimpleKMeans dan XMeans digunakan untuk mengolah dataset dan mengelompokan berdasarkan jumlah kluster tetap yang digunakan, sedangkan Farthest First akan meletakan semua pusat kluster pada titik terjauh dari pusat kluster yang sudah ada untuk mengelompokan data. Dataset berasal dari UCI machine learning dengan menggunakan 3 koleksi data, yaitu Enron Email, NIPS Proceedings, dan Daily Kos Blog entries. Performa dataset diuji dengan berbagai masukan parameter yang berbeda meliputi jumlah kluster hingga evaluasi sum squared error (SSE), serta iterasi selama proses pengolahan data. Hasil penelitian diharapkan dapat dijadikan acuan untuk menentukan algoritma dan parameter yang sesuai untuk melakukan pengelompokan data yang tidak memiliki label.http://jurnal.untan.ac.id/index.php/jepin/article/view/10145
collection DOAJ
language Indonesian
format Article
sources DOAJ
author Tari Mardiana
Rudy Dwi Nyoto
spellingShingle Tari Mardiana
Rudy Dwi Nyoto
Kluster Bag of Word Menggunakan Weka
JEPIN (Jurnal Edukasi dan Penelitian Informatika)
author_facet Tari Mardiana
Rudy Dwi Nyoto
author_sort Tari Mardiana
title Kluster Bag of Word Menggunakan Weka
title_short Kluster Bag of Word Menggunakan Weka
title_full Kluster Bag of Word Menggunakan Weka
title_fullStr Kluster Bag of Word Menggunakan Weka
title_full_unstemmed Kluster Bag of Word Menggunakan Weka
title_sort kluster bag of word menggunakan weka
publisher Universitas Tanjungpura
series JEPIN (Jurnal Edukasi dan Penelitian Informatika)
issn 2460-0741
2548-9364
publishDate 2015-05-01
description Dalam bidang pengolahan bahasa alami dan sistem temu balik informasi, representasi sebuah data teks sangat penting untuk mendukung proses analisis data statistik di dalamnya. Data teks dengan bentuk tidak terstruktur dapat direpresentasikan secara sederhana menggunakan sekumpulan set kata yang disebut bag-of-words dan belum memiliki label atau kelas tertentu. Data unsupervised atau objek-objek yang belum memiliki label dapat dikelompokan menggunakan klustering berdasarkan kemiripan satu objek dengan objek lain. Artikel ini membahas perbandingan hasil pengelompokan unsupervised data menggunakan algoritma kluster yang tersedia pada tools Weka, yaitu SimpleKMeans, X-Means, dan Farthest First. SimpleKMeans dan XMeans digunakan untuk mengolah dataset dan mengelompokan berdasarkan jumlah kluster tetap yang digunakan, sedangkan Farthest First akan meletakan semua pusat kluster pada titik terjauh dari pusat kluster yang sudah ada untuk mengelompokan data. Dataset berasal dari UCI machine learning dengan menggunakan 3 koleksi data, yaitu Enron Email, NIPS Proceedings, dan Daily Kos Blog entries. Performa dataset diuji dengan berbagai masukan parameter yang berbeda meliputi jumlah kluster hingga evaluasi sum squared error (SSE), serta iterasi selama proses pengolahan data. Hasil penelitian diharapkan dapat dijadikan acuan untuk menentukan algoritma dan parameter yang sesuai untuk melakukan pengelompokan data yang tidak memiliki label.
url http://jurnal.untan.ac.id/index.php/jepin/article/view/10145
work_keys_str_mv AT tarimardiana klusterbagofwordmenggunakanweka
AT rudydwinyoto klusterbagofwordmenggunakanweka
_version_ 1716764231048626176