PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDIS
ABSTRACT – The class imbalance problems have been reported to severely hinder classification performance of many standard learning algorithms, and have attracted a great deal of attention from researchers of different fields. Therefore, a number of methods, such as sampling methods, cost-sensitive lea...
Main Authors: | , |
---|---|
Format: | Article |
Language: | Indonesian |
Published: |
Universitas Bina Sarana Informatika, LPPM
2016-03-01
|
Series: | Jurnal Informatika |
Online Access: | http://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/118 |
id |
doaj-fb493713b6c94186a025bdc3d1be3a59 |
---|---|
record_format |
Article |
spelling |
doaj-fb493713b6c94186a025bdc3d1be3a592020-11-24T21:21:17ZindUniversitas Bina Sarana Informatika, LPPMJurnal Informatika2355-65792528-22472016-03-012293PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDISRizki Tri PrasetioPratiwi PratiwiABSTRACT – The class imbalance problems have been reported to severely hinder classification performance of many standard learning algorithms, and have attracted a great deal of attention from researchers of different fields. Therefore, a number of methods, such as sampling methods, cost-sensitive learning methods, and bagging and boosting based ensemble methods, have been proposed to solve these problems. Some medical dataset has two classes has two classes or binominal experiencing an imbalance that causes lack of accuracy in classification. This research proposed a combination technique of bagging and algorithms of classification to improve the accuracy of medical datasets. Bagging technique used to solve the problem of imbalanced class. The proposed method is applied on three classifier algorithm i.e., naïve bayes, decision tree and k-nearest neighbor. This research uses five medical datasets obtained from UCI Machine Learning i.e.., breast-cancer, liver-disorder, heart-disease, pima-diabetes and vertebral column. Results of this research indicate that the proposed method makes a significant improvement on two algorithms of classification i.e. decision tree with p value of t-Test 0.0184 and k-nearest neighbor with p value of t-Test 0.0292, but not significant in naïve bayes with p value of t-Test 0.9236. After bagging technique applied at five medical datasets, naïve bayes has the highest accuracy for breast-cancer dataset of 96.14% with AUC of 0.984, heart-disease of 84.44% with AUC of 0.911 and pima-diabetes of 74.73% with AUC of 0.806. While the k-nearest neighbor has the best accuracy for dataset liver-disorder of 62.03% with AUC of 0.632 and vertebral-column of 82.26% with the AUC of 0.867. Keywords: ensemble technique, bagging, imbalanced class, medical dataset. ABSTRAKSI – Masalah ketidakseimbangan kelas telah dilaporkan sangat menghambat kinerja klasifikasi banyak algoritma klasifikasi dan telah menarik banyak perhatian dari para peneliti dari berbagai bidang. Oleh karena itu, sejumlah metode seperti metode sampling, cost-sensitive learning, serta bagging dan boosting, telah diusulkan untuk memecahkan masalah ini. Beberapa dataset medis yang memiliki dua kelas atau binominal mengalami ketidakseimbangan kelas yang menyebabkan kurangnya akurasi pada klasifikasi. Pada penelitian ini diusulkan kombinasi teknik bagging dan algoritma klasifikasi untuk meningkatkan akurasi dari klasifikasi dataset medis. Teknik bagging digunakan untuk menyelesaikan masalah ketidakseimbangan kelas. Metode yang diusulkan diterapkan pada tiga algoritma classifier yaitu, naïve bayes, decision tree dan k-nearest neighbor. Penelitian ini menggunakan lima dataset medis yang didapatkan dari UCI Machine Learning yaitu, breast-cancer, liver-disorder, heart-disease, pima-diabetes dan vertebral column. Hasil penelitian menunjukan bahwa metode yang diusulkan membuat peningkatan yang signifikan pada dua algoritma klasifikasi yaitu decision tree dengan P value of t-Test sebesar 0,0184 dan k-nearest neighbor dengan P value of t-Test sebesar 0,0292, akan tetapi tidak signifikan pada naïve bayes dengan P value of t-Test sebesar 0,9236. Setelah diterapkan teknik bagging pada lima dataset medis, naïve bayes memiliki akurasi paling tinggi untuk dataset breast-cancer sebesar 96,14% dengan AUC sebesar 0,984, heart-disease sebesar 84,44% dengan AUC sebesar 0,911dan pima-diabetes sebesar 74,73% dengan AUC sebesar 0,806. Sedangkan k-nearest neighbor memiliki akurasi yang paling baik untuk dataset liver-disorder sebesar 62,03% dengan AUC sebesar dan 0,632 dan vertebral column dengan akurasi sebesar 82,26% dengan AUC sebesar 0,867. Kata Kunci: teknik ensemble, bagging, ketidakseimbangan kelas, dataset medis.http://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/118 |
collection |
DOAJ |
language |
Indonesian |
format |
Article |
sources |
DOAJ |
author |
Rizki Tri Prasetio Pratiwi Pratiwi |
spellingShingle |
Rizki Tri Prasetio Pratiwi Pratiwi PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDIS Jurnal Informatika |
author_facet |
Rizki Tri Prasetio Pratiwi Pratiwi |
author_sort |
Rizki Tri Prasetio |
title |
PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDIS |
title_short |
PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDIS |
title_full |
PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDIS |
title_fullStr |
PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDIS |
title_full_unstemmed |
PENERAPAN TEKNIK BAGGING PADA ALGORITMA KLASIFIKASI UNTUK MENGATASI KETIDAKSEIMBANGAN KELAS DATASET MEDIS |
title_sort |
penerapan teknik bagging pada algoritma klasifikasi untuk mengatasi ketidakseimbangan kelas dataset medis |
publisher |
Universitas Bina Sarana Informatika, LPPM |
series |
Jurnal Informatika |
issn |
2355-6579 2528-2247 |
publishDate |
2016-03-01 |
description |
ABSTRACT – The class imbalance problems have been reported to severely hinder classification performance of many standard learning algorithms, and have attracted a great deal of attention from researchers of different fields. Therefore, a number of methods, such as sampling methods, cost-sensitive learning methods, and bagging and boosting based ensemble methods, have been proposed to solve these problems. Some medical dataset has two classes has two classes or binominal experiencing an imbalance that causes lack of accuracy in classification. This research proposed a combination technique of bagging and algorithms of classification to improve the accuracy of medical datasets. Bagging technique used to solve the problem of imbalanced class. The proposed method is applied on three classifier algorithm i.e., naïve bayes, decision tree and k-nearest neighbor. This research uses five medical datasets obtained from UCI Machine Learning i.e.., breast-cancer, liver-disorder, heart-disease, pima-diabetes and vertebral column. Results of this research indicate that the proposed method makes a significant improvement on two algorithms of classification i.e. decision tree with p value of t-Test 0.0184 and k-nearest neighbor with p value of t-Test 0.0292, but not significant in naïve bayes with p value of t-Test 0.9236. After bagging technique applied at five medical datasets, naïve bayes has the highest accuracy for breast-cancer dataset of 96.14% with AUC of 0.984, heart-disease of 84.44% with AUC of 0.911 and pima-diabetes of 74.73% with AUC of 0.806. While the k-nearest neighbor has the best accuracy for dataset liver-disorder of 62.03% with AUC of 0.632 and vertebral-column of 82.26% with the AUC of 0.867.
Keywords: ensemble technique, bagging, imbalanced class, medical dataset.
ABSTRAKSI – Masalah ketidakseimbangan kelas telah dilaporkan sangat menghambat kinerja klasifikasi banyak algoritma klasifikasi dan telah menarik banyak perhatian dari para peneliti dari berbagai bidang. Oleh karena itu, sejumlah metode seperti metode sampling, cost-sensitive learning, serta bagging dan boosting, telah diusulkan untuk memecahkan masalah ini. Beberapa dataset medis yang memiliki dua kelas atau binominal mengalami ketidakseimbangan kelas yang menyebabkan kurangnya akurasi pada klasifikasi. Pada penelitian ini diusulkan kombinasi teknik bagging dan algoritma klasifikasi untuk meningkatkan akurasi dari klasifikasi dataset medis. Teknik bagging digunakan untuk menyelesaikan masalah ketidakseimbangan kelas. Metode yang diusulkan diterapkan pada tiga algoritma classifier yaitu, naïve bayes, decision tree dan k-nearest neighbor. Penelitian ini menggunakan lima dataset medis yang didapatkan dari UCI Machine Learning yaitu, breast-cancer, liver-disorder, heart-disease, pima-diabetes dan vertebral column. Hasil penelitian menunjukan bahwa metode yang diusulkan membuat peningkatan yang signifikan pada dua algoritma klasifikasi yaitu decision tree dengan P value of t-Test sebesar 0,0184 dan k-nearest neighbor dengan P value of t-Test sebesar 0,0292, akan tetapi tidak signifikan pada naïve bayes dengan P value of t-Test sebesar 0,9236. Setelah diterapkan teknik bagging pada lima dataset medis, naïve bayes memiliki akurasi paling tinggi untuk dataset breast-cancer sebesar 96,14% dengan AUC sebesar 0,984, heart-disease sebesar 84,44% dengan AUC sebesar 0,911dan pima-diabetes sebesar 74,73% dengan AUC sebesar 0,806. Sedangkan k-nearest neighbor memiliki akurasi yang paling baik untuk dataset liver-disorder sebesar 62,03% dengan AUC sebesar dan 0,632 dan vertebral column dengan akurasi sebesar 82,26% dengan AUC sebesar 0,867.
Kata Kunci: teknik ensemble, bagging, ketidakseimbangan kelas, dataset medis. |
url |
http://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/118 |
work_keys_str_mv |
AT rizkitriprasetio penerapanteknikbaggingpadaalgoritmaklasifikasiuntukmengatasiketidakseimbangankelasdatasetmedis AT pratiwipratiwi penerapanteknikbaggingpadaalgoritmaklasifikasiuntukmengatasiketidakseimbangankelasdatasetmedis |
_version_ |
1725999911742210048 |