Optimalisasi Hasil Clustering K-Medoids dengan Menggunakan Gap Statistic
View/ Open
Date
2021Author
Mizfar, Al
Advisor(s)
Mawengkang, Herman
Zamzami, Elviawaty Muisa
Metadata
Show full item recordAbstract
K-Medoids is a machine learning algorithm that partitions data and then assigns them to groups. In the K-Medoids grouping, each cluster is represented by one data point called the medoid. Medoid is an object where it has the least average difference from other members in a set of objects. These objects can be considered as representative examples of each member of the cluster. Gap Statistic is a data mining algorithm that aims to improve the quality of the clustering process by efficiently estimating the best number of clusters. The Gap Statistic compares the totals in the intra-cluster variation for k values that differ from the expected values under the data zero reference distribution. The optimal cluster estimate is the value that maximizes the Gap Statistic. In this study, K-Medoids was applied using a Gap Statistic in detennining the value of k, that is the number of clusters formed. The results of this proposed approach are then compared with several conventional K-Medoids approach using two methods, that is the Dunn Index and the Silhouette Index. The evaluation results from the Dunn Index show that the Gap Statistic has succeeded in determining the optimal k value, while the results of the Silhouette Index evaluation show that the proposed approach do not provide a significant change compared to the conventional application of K-Medoids. K-Medoids adalah salah satu algoritma dalam machine learning yang memartisi data dan kemudian menetapkannya ke dalam beberapa kelompok. Dalam pengelompokan K-Medoids, setiap cluster diwakili oleh salah satu titik data yang dinamakan medoid. Medoid adalah suatu objek yang memiliki nilai rata-rata ketidaksamaan paling minimal dari anggota yang lain di dalam suatu kumpulan objek. 1\1edoid ini dapat dianggap sebagai contoh representatif dari setiap anggota cluster. Gap Statistic adalah algoritma data mining yang be1tujuan untuk meningkatkan kualitas proses clustering dengan estimasi efisien jumlah cluster terbaik. Gap Stalistic membandingkan total dalam variasi intm-cluster untuk nilai k yang berbeda dengan nilai yang diharapkan di bawah distribusi referensi nol data. Estimasi cluster optimal adalah nilai yang memaksimalkan Gap Statistic tersebut. Pada penelitian ini, K-Medoids diterapkan dengan menggunakan Gap Statistic dalam penentuan nilai k, yaitu jumlah cluster yang dibentuk. Hasil dari penerapan tersebut lalu dibandingkan dengan beberapa penerapan K-Medoids konvensional menggunakan dua buah metode, yang bemama Dunn Index dan Silhouelte Index. Hasil evaluasi dari Dwm Index menunjukkan bahwa Gap Statistic berhasil menentukan nilai optimal k, sedangkan hasil evaluasi Silhouette Index menunjukkan bahwa basil clustering yang diusulkan tidak memberikan perubahan yang signifikan dibandingkan penerapan K-Medoids yang konvensional.
Collections
- Master Theses [621]