Seleksi Atribut Pada K-Nearest Neighbor (K-Nn) dengan Symmetrical Uncertainty dalam Klasifikasi Data
View/ Open
Date
2022Author
Ginting, Anirma Kandida Br
Advisor(s)
Lydia, Maya Silvi
Zamzami, Elviawaty M
Metadata
Show full item recordAbstract
K-Nearest iNeighbor (K-NN) is a classification method that is generally used in the
data classification process. However, based on several studies that have been
conducted, K-Nearest Neighbor obtains less than optimal accuracy when compared to
other methods. As for the cause of the less than optimal acquisition of accuracy in the
K-NN when compared to other classification methods, that lies in the attributes used
which in general each iattribute ihas ithe isame impact on the classification process,
while some attribute icharacteristics iare iless irelevant to the iclassification process. the
data to be tested can cause errors in the data classification process for determining the
class for new data. In this study, the author proposes to K-Nearest Neighbor to do
attribute selection ito iremove iless irelevant iattributes ibefore carrying out ithe
classification process. iThe iattribute iselection imethod iused iin ithis istudy iis
iSymmetrical Uncertainty ias ithe iproposed imethod ifor iselecting iattributes iwith ipoor
icorrelation from ithe idataset ibeing itested. The iaccuracy iresults iobtained ifrom ithe
iproposed method iwill ibe icompared iwith ithe iaccuracy iobtained ifrom ithe
iconventional iK-NN method using 10-Fold Cross-Validation. iThe idata iused ias ia itest
iinstrument iin ithis study is using data ifrom ithe iUCI iMachine iLearning iRepository,
namely the Wine Quality iDataset, iIndian iLiver iPatient iDataset iand iUser iKnowledge
iModeling Dataset. iThe itest iresults iobtained iare ithat ithe iproposed imethod iis iable
ito iincrease the iclassification iaccuracy iof iK-NN, iwhere ithe iincrease iin iaccuracy
iobtained iafter attribute iselection iis 4.5173%. K-Nearest iNeighbor (K-NN) imerupakan isalah isatu imetode klasifikasi iyang
umumnya digunakan ipada iproses klasifikasi idata. Akan tetapi berdasarkan beberapa
penelitian yang telah idilakukan, iK-Nearest iNeighbor imemperoleh iakurasi iyang
ikurang maksimal bila idibandingkan dengan metode lainnya. Adapun yang menjadi
penyebab dari kurang maksimalnya perolehan akurasi ipada iK-NN itersebut ijika
idibandingkan dengan metode klasifikasi yang lain yaitu terletak pada atribut yang
digunakan yang dimana pada umumnya dari masing-masing atribut memiliki dampak
yang sama terhadap proses klasifikasi, sementara beberapa karakteristik atribut yang
kurang relevan terhadap data yang akan diujikan dapat menyebabkan kesalahan pada
proses klasifikasi data penentuan kelas untuk data baru. iPada ipenelitian iini, ipenulis
mengusulkan iK-Nearest iNeighbor iagar idilakukan iseleksi iatribut iuntuk menghapus
iatribut iyang ikurang irelevan isebelum imelakukan proses klasifikasi. Metode seleksi
atribut yang digunakan pada penelitian ini yaitu Symmetrical Uncertainty sebagai
metode yang diusulkan untuk menyeleksi atribut yang korelasinya kurang baik dari
dataset yang diujikan. Hasil akurasi yang diperoleh dari metode yang diusulkan akan
dibandingkan dengan akurasi yang diperoleh dari metode K-NN konvensional
menggunakan 10-Fold Cross-Validation. Data yang digunakan sebagai instrument
pengujian pada penelitian ini yaitu menggunakan data yang berasal dari UCI iMachine
iLearning iRepository yaitu Wine Quality Dataset, Indian Liver Patient Dataset dan
User Knowledge Modeling Dataset. Hasil ipengujian iyang idiperoleh iyaitu metode
iyang idiusulkan imampu imeningkatkan iakurasi iklasifikasi idari iK-NN, idimana
peningkatan iakurasi iakurasi iyang idiperoleh isetelah idilakukan iseleksi iatribut iyaitu
sebesar 4.5173%.
Collections
- Master Theses [621]