Summary: | Keberadaan outlier pada dataset dapat menyebabkan rendahnya hasil akurasi pada proses klasifikasi. Outlier pada dataset dapat dihilangkan pada tahapan prapemrosesan algoritme klasifikasi. Clustering dapat digunakan sebagai metode pendeteksi outlier. Kajian ini bertujuan menerapkan K-means dan matriks jarak untuk mendeteksi outlier dan menghapusnya dari dataset yang sudah memiliki kelas label. Penelitian ini menggunakan dataset hasil studi mahasiswa berjumlah 6847 instance, dengan 18 atribut dan tiga kelas. Prapemrosesan menerapkan metode K-means untuk mendapatkan pusat klaster pada tiap class, matriks jarak digunakan untuk mengevaluasi jarak instance dengan pusat klaster. Outlier, kelas baru yang berbeda dengan kelas awal, yang ditemukan akan dihilangkan. Prapemrosesan ini meningkatkan hasil akurasi klasifikasi algoritme kNN. Data tanpa prapemrosesan menghasilkan akurasi sebesar 72,28 %, data hasil prapemrosesan menggunakan metode K-means dan Euclidean menghasilkan akurasi hasil klasifikasi sebesar 98,42 % (meningkat 26,14 %), sedangkan metode K-means dan Manhattan menghasilkan akurasi sebesar 97,76 % (meningkat 25,48 %).
|