Peningkatan Kinerja K-Means Clustering berdasarkan Pembobotan Atribut Menggunakan Metode Principal Component Analysis
View/ Open
Date
2021Author
Agusnady, Alfian
Advisor(s)
Sitompul, Opim Salim
Tulus
Metadata
Show full item recordAbstract
The K-Means algorithm has several weaknesses, one of which lies in the
distance model used in determining the similarity between data which provides
the same treatment for each data attribute, so that attributes that are less
relevant and have little contribution to data variation can have a significant
impact on clustering results. This of course can reduce the performance of the
K-Means algorithm. Attribute weighting is one way that can be used to get the
correlation of data attributes to data variations. The higher the weight value of
an attribute, the greater the correlation to data variation, so that the low weight
value of an attribute certainly has little contribution to data variation and can
have a significant impact on performance and clustering results. In this study,
the method used in calculating the weight of data attributes is Principal
Component Analysis (PCA). To test the proposed method, this study uses a
dataset from UCI Machine Learning which consists of 351 Ionosphere data,
4177 Abalone data and 1096 air quality data from Pekanbaru City Air
Laboratory and 120 water quality data. The evaluation of the proposed
clustering performance is based on the Sum of Square Error (SSE) value. The
test results in this study show that the proposed method can produce a
significantly smaller SSE value. Algoritma K-Means memiliki beberapa kelemahan, salah satunya terletak pada
model jarak yang digunakan dalam penentuan kemiripan antar data yang
memberikan perlakuan yang sama terhadap setiap atribut data, sehingga atribut
yang kurang relevan dan memiliki sedikit kontribusi terhadap variasi data dapat
memberikan dampak yang cukup berpengaruh terhadap hasil clustering. Hal ini
tentu saja dapat menurunkan kinerja algoritma K-Means. Pembobotan atribut
merupakan salah satu cara yang dapat digunakan untuk mendapatkan korelasi
atribut data terhadap variasi data. Semakin tinggi nilai bobot dari suatu atribut
maka semakin besar korelasinya terhadap variasi data, sehingga nilai bobot
yang rendah dari suatu atribut tentunya memiliki sedikit kontribusi terhadap
variasi data dan dapat memberikan dampak yang cukup berpengaruh terhadap
kinerja dan hasil clustering. Pada penelitian ini, metode yang digunakan dalam
perhitungan bobot atribut data yaitu Principal Component Analysis (PCA).
Untuk melakukan pengujian terhadap metode yang diusulkan, maka penelitian
ini menggunakan dataset dari UCI Machine Learning yang terdiri dari 351 data
Ionosphere, 4177 data Abalone serta 1096 data kualitas udara dari
Laboratorium Udara Kota Pekanbaru dan 120 data kualitas air. Evaluasi kinerja
clustering yang diusulkan berdasarkan nilai Sum of Square Error (SSE). Hasil
pengujian pada penelitian ini terlihat bahwa dengan metode yang diusulkan
dapat menghasilkan nilai SSE yang signifikan lebih kecil.
Collections
- Master Theses [621]